Engenheiro de Dados
Pipelines e qualidade de dados.
O Engenheiro de Dados é a persona que constrói e opera os pipelines de dados dos quais o restante da organização depende. Em um SDLC AI-nativo, o Engenheiro de Dados opera um agente Pipeline Keeper, quatro slash prompts e um catálogo validado de MCPs abrangendo Azure Data Factory, Synapse, Fabric, SQL Database e Cosmos DB — não uma floresta de notebooks frágeis.
Resumo executivo
O Engenheiro de Dados é dono da movimentação, transformação e qualidade dos dados entre sistemas. Em um SDLC AI-nativo, suas entregas primárias são pipelines idempotentes, migrações de schema testadas, gates de qualidade enforçados no CI e um mapa de linhagem que qualquer stakeholder consegue ler. O toolkit é fixo: o agente Pipeline Keeper, os slash prompts /etl-scaffold, /schema-diff, /quality-gate, /lineage-map, instruções com escopo para SQL e definições de pipeline, e MCPs validados alcançando Azure Data Factory, Azure Synapse, Microsoft Fabric, Azure SQL Database e Azure Cosmos DB.
O Engenheiro de Dados protege a organização dos modos de falha de dados mais comuns: drift silencioso de schema, nulos faltantes transformando-se em joins envenenados, dados atrasados quebrando contratos downstream e pipelines que sucedem enquanto produzem resultados sutilmente errados. Todo pipeline é entregue com testes, uma entrada de linhagem e um gate de qualidade de dados.
O trabalho de dados agora é inseparável do trabalho de software. Pipelines são código, revisados no GitHub, testados no Actions, governados pelo Microsoft Purview e observados através do Azure Monitor.
Papel e responsabilidades
Pense no Engenheiro de Dados como o mestre de pontes de um sistema municipal de água. Tubos movem água de reservatórios para bairros; medidores, válvulas e estações de teste garantem qualidade; qualquer vazamento ou contaminação deve ser detectado e encaminhado antes da torneira da cozinha. Em um SDLC AI-nativo, o Engenheiro de Dados é dono dessa tubulação para fatos em vez de líquido.
Responsabilidades primárias:
- Projetar e operar pipelines de ingestão no Azure Data Factory e Microsoft Fabric
- Ser dono das transformações no Azure Synapse e nas camadas curadas em lakehouses do Fabric
- Modelar stores operacionais no Azure SQL Database e Azure Cosmos DB
- Versionar cada mudança de schema com migrações idempotentes e reversíveis
- Enforçar gates de qualidade: validação de schema, taxas de nulo, frescor, deltas de contagem de linhas
- Produzir e manter um mapa de linhagem para cada dataset, consultável por consumidores downstream
- Operar o agente Pipeline Keeper e os prompts
/etl-scaffold,/schema-diff,/quality-gate,/lineage-map - Colaborar com o DBA em schemas operacionais e com o ML AI Engineer em feature stores
Jobs to be done
- Como Engenheiro de Dados, eu quero criar o scaffold de um novo pipeline ETL em minutos, para que a integração de uma nova fonte não seja um ticket de uma semana.
- Como Engenheiro de Dados, eu quero cada mudança de schema revisada com um diff e relatório de impacto, para que nenhuma quebra silenciosa chegue à produção.
- Como Engenheiro de Dados, eu quero um gate de qualidade em cada dataset, para que consumidores downstream possam confiar no frescor e completude.
- Como Engenheiro de Dados, eu quero um mapa de linhagem em tempo real, para que a análise de impacto de uma mudança de schema seja uma consulta, não uma reunião.
- Como Engenheiro de Dados, eu quero falhas de pipeline que produzam alertas acionáveis no Azure Monitor, para que o trabalho de plantão seja priorizado corretamente.
- Como Engenheiro de Dados, eu quero anomalias de custo no Synapse e Fabric detectadas automaticamente, para que jobs descontrolados não estourem o orçamento mensal.
- Como Engenheiro de Dados, eu quero classificações de dados sensíveis do Microsoft Purview propagadas nos testes de pipeline, para que o tratamento de PII seja provado, não assumido.
- Como Engenheiro de Dados, eu quero cada transformação expressa em código versionado, para que nenhum SQL avulso viva apenas em um notebook.
Dores antes do AI-nativo
- Arqueologia de notebooks. Lógica crítica vive em notebooks não testados que referenciam colunas por posição.
- Drift silencioso de schema. Uma fonte adiciona uma coluna; um join duplica linhas silenciosamente; um relatório fica errado por uma semana.
- Verificações de qualidade após o fato. Regras de qualidade de dados rodam em um dashboard separado que o time esquece de abrir.
- Linhagem na cabeça. Só o Engenheiro de Dados sênior sabe qual tabela alimenta qual relatório.
- Surpresas de custo. Um pool do Synapse mal configurado roda durante a noite; o time financeiro percebe antes da engenharia.
- Pipeline como floco de neve. Cada pipeline inventou suas próprias convenções de retry, logging e alertas.
- Sem rollback. Migrações rodavam apenas para frente; reverter uma mudança ruim exigia uma restauração.
Fluxo diário AI-nativo
O Engenheiro de Dados trabalha a partir do Visual Studio Code com GitHub Copilot e do terminal com Claude Code, invocando o agente Pipeline Keeper ao longo do dia.
Setup da manhã
- Abra o Azure Monitor e o monitoramento do Microsoft Fabric para revisar as execuções de pipeline noturnas.
- No VS Code, rode
/quality-gate --since=yesterdaypara identificar qualquer dataset que falhou em verificações de frescor ou completude. - Revise PRs de schema pendentes; o Pipeline Keeper já pré-redigiu relatórios de
/schema-diff. - Confirme atualizações de classificação do Microsoft Purview vindas do time de Governança.
- Poste o resumo diário de Saúde de Dados no Microsoft Teams com links para quaisquer incidentes abertos.
Execução no meio do dia
- Para cada nova fonte, invoque
/etl-scaffoldcom os metadados da fonte; o Pipeline Keeper gera uma definição de pipeline do Azure Data Factory, dataflow do Fabric ou notebook do Synapse com testes. - Para cada PR de schema, rode
/schema-diffpara produzir o relatório de impacto (tabelas, relatórios, pipelines downstream) e anexá-lo ao PR. - Implemente transformações em SQL ou PySpark com instruções com escopo enforçando estilo e segurança.
- Conecte
/quality-gateno workflow de CI para que merges sejam bloqueados em regras de frescor ou nulabilidade quebradas.
Revisão no fim da tarde
- Rode
/lineage-mappara atualizar o grafo de linhagem; exporte para o Microsoft Fabric e envie um snapshot em Markdown para o repositório. - Triar quaisquer anomalias de custo reportadas pelo Azure Monitor e abrir issues de acompanhamento.
- Pareie com o DBA em migrações futuras para stores operacionais.
Primitivas recomendadas
Agente
| Agente | Arquivo | Propósito |
|---|---|---|
pipeline-keeper | .github/agents/pipeline-keeper.agent.md | Cria scaffolds de pipelines, diffa schemas, enforça gates de qualidade, atualiza linhagem |
Slash prompts
| Comando | Arquivo | Propósito |
|---|---|---|
/etl-scaffold | .github/prompts/etl-scaffold.prompt.md | Gerar um pipeline de ingestão com testes, retries, gate de qualidade |
/schema-diff | .github/prompts/schema-diff.prompt.md | Diffar mudanças de schema e reportar impacto downstream |
/quality-gate | .github/prompts/quality-gate.prompt.md | Rodar verificações de qualidade de dados no CI e bloquear merge em falha |
/lineage-map | .github/prompts/lineage-map.prompt.md | Atualizar o grafo de linhagem e exportar para o Fabric |
Instruções com escopo
Escopo (applyTo) | Arquivo | Propósito |
|---|---|---|
**/*.sql | .github/instructions/sql.instructions.md | Migrações idempotentes, passos reversíveis de down, sem DDL destrutivo fora de revisão |
pipelines/**/*.json | .github/instructions/adf.instructions.md | Convenções de pipeline do Azure Data Factory, retries, alertas |
fabric/**/*.py | .github/instructions/fabric.instructions.md | Padrões de notebook e dataflow do Microsoft Fabric |
cosmos/**/*.ts | .github/instructions/cosmos.instructions.md | Regras de partition key e uso do SDK do Azure Cosmos DB |
Hooks
pre-commit: lint de SQL, verificação de classificação Purview, scan de segredospre-push: rodar testes unitários em transformações e schema diff em DDL alteradopost-merge: deploy de definições de pipeline via GitHub Actions para o Azure Data Factorynightly: rodar gate de qualidade completo e atualizar linhagemon-cost-anomaly: abrir uma issue quando métricas de custo do Azure Monitor ultrapassam um limiar
MCPs validados
| MCP | Propósito | Dono |
|---|---|---|
| GitHub MCP Server | PRs, execuções do Actions, relatórios de schema-diff | GitHub |
| Azure MCP Server | Operar Azure Data Factory, Synapse, Fabric, SQL e Cosmos DB | Microsoft |
| Microsoft Learn Docs MCP | Resolver documentação atual de serviços de dados Azure durante a implementação | Microsoft |
| Azure DevOps MCP Server | Runbooks de pipeline e rastreamento de work items para projetos de dados | Microsoft |
| Playwright MCP | Validação ponta a ponta de superfícies de dados expostas via web apps | Microsoft |
Exemplos reais
Exemplo 1: integrando uma nova fonte SaaS
Um novo feed de CRM precisa de ingestão. O Engenheiro de Dados roda /etl-scaffold --source=crm-api --target=fabric-lakehouse. O Pipeline Keeper gera um pipeline do Azure Data Factory com retries, lógica de checkpoint e uma regra /quality-gate para frescor e unicidade de chave primária. Após revisão, um único PR faz merge de 14 arquivos; Actions deploya o pipeline no Azure Data Factory. A primeira execução aterrissa dentro de uma hora; o grafo de linhagem atualiza durante a noite.
Exemplo 2: capturando drift de schema antes da produção
Uma tabela do Synapse ganha uma coluna. O PR dispara /schema-diff, que identifica três relatórios do Power BI e dois consumidores do Azure SQL Database. O Pipeline Keeper sinaliza um consumidor que assume selects posicionais fixos; o Engenheiro de Dados atualiza o SQL e solicita um teste de compatibilidade. O merge prossegue sem surpresa para finanças ou analytics.
Exemplo 3: matando uma query descontrolada do Synapse
Durante a noite, o Azure Monitor dispara uma anomalia de custo. O hook on-cost-anomaly abre uma issue atribuída ao dono do Pipeline Keeper. Na manhã seguinte, o Engenheiro de Dados identifica um predicado faltante; /schema-diff mostra o plano de consulta afetado; uma correção de uma linha faz merge e o custo retorna à linha base.
Anti-padrões
- Notebooks como produção. Se um notebook produz um sinal do qual o negócio depende, ele pertence a um pipeline versionado com testes.
- Migrações confiança-cega. Migrações sem um plano de rollback não são seguras, independentemente da confiança do time.
- Verificações de qualidade só em dashboards. Regras de qualidade pertencem ao CI e a hooks de runtime, não a um monitor que alguém pode olhar.
- Linhagem de memória. Cada dataset deve ter uma entrada de linhagem gerada; o grafo é a fonte da verdade.
- PII não classificado. Trate cada coluna não rotulada como sensível até que o Purview diga o contrário.
- Pipelines sem alertas. Um pipeline falhando que não aciona ninguém é um bug.
- Retries artesanais. Use políticas de retry nativas do pipeline; lógica de retry customizada é um incidente futuro.
KPIs e métricas de impacto
| Métrica | Linha base (manual) | Meta (agêntico) | Fonte |
|---|---|---|---|
| Tempo de integração de pipeline | 7 dias | < 1 dia | Lead time de PR no GitHub |
| Incidentes de drift de schema por trimestre | 8 | 0 | Relatórios de /schema-diff |
| Cobertura do gate de qualidade de dados | 40 por cento | 100 por cento | Verificação no CI |
| Tempo médio para detectar falha de pipeline | 2 horas | < 5 minutos | Alertas do Azure Monitor |
| Anomalias de custo não resolvidas > 24h | 5 por trimestre | 0 | Azure Monitor, hook de custo |
| Frescor do mapa de linhagem | Semanal | Em tempo real no merge | Exportação de linhagem do Fabric |
| Classificações de PII sincronizadas | Ad hoc | Diariamente | Microsoft Purview |
Maturidade em quatro níveis
- L1 Manual: Notebooks por email, migrações em um drive compartilhado, sem testes, sem linhagem.
- L2 Assistido: Autocomplete do Copilot em SQL, alguns pipelines no Azure Data Factory, mas sem schema diff e sem gate de qualidade.
- L3 Aumentado: Agente Pipeline Keeper, quatro slash prompts, instruções com escopo, gate de qualidade no CI, linhagem atualizada semanalmente.
- L4 Autônomo: Gate de qualidade bloqueando merges, anomalias de custo abrindo issues em minutos, linhagem atualizada a cada merge, classificações do Purview propagadas nos testes.
Integração com outras personas
- Do Business Analyst: requisitos de dados mapeados para EARS, contratos de sistema-fonte.
- Do Software Architect: restrições de armazenamento e throughput, seleção de plataforma alvo.
- Com o DBA: governança de schema compartilhada para stores operacionais; revisões de migração.
- Para o ML AI Engineer: datasets de features curados no Microsoft Fabric com linhagem documentada.
- Para o BI Analyst: datasets certificados com garantias de frescor e completude.
- Para o SRE: runbooks do Azure Monitor para falhas de pipeline.
- Para o Compliance Auditor: classificações do Purview, mapa de linhagem e histórico de gates de qualidade como evidência de auditoria.
Glossário
- Pipeline: uma definição versionada e testável que move ou transforma dados.
- Gate de qualidade: um conjunto de verificações automatizadas (frescor, completude, schema) bloqueando um merge ou release.
- Schema diff: uma comparação estruturada de versões de schema com análise de impacto downstream.
- Linhagem: o grafo direcionado do sistema-fonte ao dataset consumidor, com transformações entre eles.
- Zona curada: a camada do Microsoft Fabric ou Synapse onde os dados são confiáveis e reportados.
- Idempotente: um pipeline que produz o mesmo resultado seja executado uma ou dez vezes na mesma entrada.
- Rollback: um script de migração reversível que retorna o schema a um estado anterior.
Referências
- Documentação do Azure Data Factory — orientação autoritativa sobre pipelines de ingestão
- Azure Synapse Analytics — transformação em escala
- Documentação do Microsoft Fabric — lakehouse, notebooks, pipelines, linhagem
- Azure SQL Database — store relacional operacional
- Azure Cosmos DB — store de documentos distribuído globalmente
- Microsoft Purview — governança e classificação de dados
- Azure Monitor — observabilidade e detecção de anomalias de custo
- GitHub Actions — orquestração de CI e deploy em todo o stack
- Microsoft Learn Docs MCP — recuperação de documentação first-party no momento da implementação
- GitHub Advanced Security — CodeQL, Dependabot, Secret Scanning, Push Protection