Engenheiro de Dados · Personas do SDLC Agêntico

O Engenheiro de Dados é a persona que constrói e opera os pipelines de dados dos quais o restante da organização depende. Em um SDLC AI-nativo, o Engenheiro de Dados opera um agente Pipeline Keeper, quatro slash prompts e um catálogo validado de MCPs abrangendo Azure Data Factory, Synapse, Fabric, SQL Database e Cosmos DB — não uma floresta de notebooks frágeis.

Resumo executivo

O Engenheiro de Dados é dono da movimentação, transformação e qualidade dos dados entre sistemas. Em um SDLC AI-nativo, suas entregas primárias são pipelines idempotentes, migrações de schema testadas, gates de qualidade enforçados no CI e um mapa de linhagem que qualquer stakeholder consegue ler. O toolkit é fixo: o agente Pipeline Keeper, os slash prompts /etl-scaffold, /schema-diff, /quality-gate, /lineage-map, instruções com escopo para SQL e definições de pipeline, e MCPs validados alcançando Azure Data Factory, Azure Synapse, Microsoft Fabric, Azure SQL Database e Azure Cosmos DB.

O Engenheiro de Dados protege a organização dos modos de falha de dados mais comuns: drift silencioso de schema, nulos faltantes transformando-se em joins envenenados, dados atrasados quebrando contratos downstream e pipelines que sucedem enquanto produzem resultados sutilmente errados. Todo pipeline é entregue com testes, uma entrada de linhagem e um gate de qualidade de dados.

O trabalho de dados agora é inseparável do trabalho de software. Pipelines são código, revisados no GitHub, testados no Actions, governados pelo Microsoft Purview e observados através do Azure Monitor.

Papel e responsabilidades

Pense no Engenheiro de Dados como o mestre de pontes de um sistema municipal de água. Tubos movem água de reservatórios para bairros; medidores, válvulas e estações de teste garantem qualidade; qualquer vazamento ou contaminação deve ser detectado e encaminhado antes da torneira da cozinha. Em um SDLC AI-nativo, o Engenheiro de Dados é dono dessa tubulação para fatos em vez de líquido.

Responsabilidades primárias:

Projetar e operar pipelines de ingestão no Azure Data Factory e Microsoft Fabric
Ser dono das transformações no Azure Synapse e nas camadas curadas em lakehouses do Fabric
Modelar stores operacionais no Azure SQL Database e Azure Cosmos DB
Versionar cada mudança de schema com migrações idempotentes e reversíveis
Enforçar gates de qualidade: validação de schema, taxas de nulo, frescor, deltas de contagem de linhas
Produzir e manter um mapa de linhagem para cada dataset, consultável por consumidores downstream
Operar o agente Pipeline Keeper e os prompts /etl-scaffold, /schema-diff, /quality-gate, /lineage-map
Colaborar com o DBA em schemas operacionais e com o ML AI Engineer em feature stores

Jobs to be done

Como Engenheiro de Dados, eu quero criar o scaffold de um novo pipeline ETL em minutos, para que a integração de uma nova fonte não seja um ticket de uma semana.
Como Engenheiro de Dados, eu quero cada mudança de schema revisada com um diff e relatório de impacto, para que nenhuma quebra silenciosa chegue à produção.
Como Engenheiro de Dados, eu quero um gate de qualidade em cada dataset, para que consumidores downstream possam confiar no frescor e completude.
Como Engenheiro de Dados, eu quero um mapa de linhagem em tempo real, para que a análise de impacto de uma mudança de schema seja uma consulta, não uma reunião.
Como Engenheiro de Dados, eu quero falhas de pipeline que produzam alertas acionáveis no Azure Monitor, para que o trabalho de plantão seja priorizado corretamente.
Como Engenheiro de Dados, eu quero anomalias de custo no Synapse e Fabric detectadas automaticamente, para que jobs descontrolados não estourem o orçamento mensal.
Como Engenheiro de Dados, eu quero classificações de dados sensíveis do Microsoft Purview propagadas nos testes de pipeline, para que o tratamento de PII seja provado, não assumido.
Como Engenheiro de Dados, eu quero cada transformação expressa em código versionado, para que nenhum SQL avulso viva apenas em um notebook.

Dores antes do AI-nativo

Arqueologia de notebooks. Lógica crítica vive em notebooks não testados que referenciam colunas por posição.
Drift silencioso de schema. Uma fonte adiciona uma coluna; um join duplica linhas silenciosamente; um relatório fica errado por uma semana.
Verificações de qualidade após o fato. Regras de qualidade de dados rodam em um dashboard separado que o time esquece de abrir.
Linhagem na cabeça. Só o Engenheiro de Dados sênior sabe qual tabela alimenta qual relatório.
Surpresas de custo. Um pool do Synapse mal configurado roda durante a noite; o time financeiro percebe antes da engenharia.
Pipeline como floco de neve. Cada pipeline inventou suas próprias convenções de retry, logging e alertas.
Sem rollback. Migrações rodavam apenas para frente; reverter uma mudança ruim exigia uma restauração.

Fluxo diário AI-nativo

O Engenheiro de Dados trabalha a partir do Visual Studio Code com GitHub Copilot e do terminal com Claude Code, invocando o agente Pipeline Keeper ao longo do dia.

Setup da manhã

Abra o Azure Monitor e o monitoramento do Microsoft Fabric para revisar as execuções de pipeline noturnas.
No VS Code, rode /quality-gate --since=yesterday para identificar qualquer dataset que falhou em verificações de frescor ou completude.
Revise PRs de schema pendentes; o Pipeline Keeper já pré-redigiu relatórios de /schema-diff.
Confirme atualizações de classificação do Microsoft Purview vindas do time de Governança.
Poste o resumo diário de Saúde de Dados no Microsoft Teams com links para quaisquer incidentes abertos.

Execução no meio do dia

Para cada nova fonte, invoque /etl-scaffold com os metadados da fonte; o Pipeline Keeper gera uma definição de pipeline do Azure Data Factory, dataflow do Fabric ou notebook do Synapse com testes.
Para cada PR de schema, rode /schema-diff para produzir o relatório de impacto (tabelas, relatórios, pipelines downstream) e anexá-lo ao PR.
Implemente transformações em SQL ou PySpark com instruções com escopo enforçando estilo e segurança.
Conecte /quality-gate no workflow de CI para que merges sejam bloqueados em regras de frescor ou nulabilidade quebradas.

Revisão no fim da tarde

Rode /lineage-map para atualizar o grafo de linhagem; exporte para o Microsoft Fabric e envie um snapshot em Markdown para o repositório.
Triar quaisquer anomalias de custo reportadas pelo Azure Monitor e abrir issues de acompanhamento.
Pareie com o DBA em migrações futuras para stores operacionais.

Primitivas recomendadas

Agente

Agente	Arquivo	Propósito
`pipeline-keeper`	`.github/agents/pipeline-keeper.agent.md`	Cria scaffolds de pipelines, diffa schemas, enforça gates de qualidade, atualiza linhagem

Slash prompts

Comando	Arquivo	Propósito
`/etl-scaffold`	`.github/prompts/etl-scaffold.prompt.md`	Gerar um pipeline de ingestão com testes, retries, gate de qualidade
`/schema-diff`	`.github/prompts/schema-diff.prompt.md`	Diffar mudanças de schema e reportar impacto downstream
`/quality-gate`	`.github/prompts/quality-gate.prompt.md`	Rodar verificações de qualidade de dados no CI e bloquear merge em falha
`/lineage-map`	`.github/prompts/lineage-map.prompt.md`	Atualizar o grafo de linhagem e exportar para o Fabric

Instruções com escopo

Escopo (`applyTo`)	Arquivo	Propósito
`*/.sql`	`.github/instructions/sql.instructions.md`	Migrações idempotentes, passos reversíveis de down, sem DDL destrutivo fora de revisão
`pipelines/*/.json`	`.github/instructions/adf.instructions.md`	Convenções de pipeline do Azure Data Factory, retries, alertas
`fabric/*/.py`	`.github/instructions/fabric.instructions.md`	Padrões de notebook e dataflow do Microsoft Fabric
`cosmos/*/.ts`	`.github/instructions/cosmos.instructions.md`	Regras de partition key e uso do SDK do Azure Cosmos DB

Hooks

pre-commit: lint de SQL, verificação de classificação Purview, scan de segredos
pre-push: rodar testes unitários em transformações e schema diff em DDL alterado
post-merge: deploy de definições de pipeline via GitHub Actions para o Azure Data Factory
nightly: rodar gate de qualidade completo e atualizar linhagem
on-cost-anomaly: abrir uma issue quando métricas de custo do Azure Monitor ultrapassam um limiar

MCPs validados

MCP	Propósito	Dono
GitHub MCP Server	PRs, execuções do Actions, relatórios de schema-diff	GitHub
Azure MCP Server	Operar Azure Data Factory, Synapse, Fabric, SQL e Cosmos DB	Microsoft
Microsoft Learn Docs MCP	Resolver documentação atual de serviços de dados Azure durante a implementação	Microsoft
Azure DevOps MCP Server	Runbooks de pipeline e rastreamento de work items para projetos de dados	Microsoft
Playwright MCP	Validação ponta a ponta de superfícies de dados expostas via web apps	Microsoft

Exemplos reais

Exemplo 1: integrando uma nova fonte SaaS

Um novo feed de CRM precisa de ingestão. O Engenheiro de Dados roda /etl-scaffold --source=crm-api --target=fabric-lakehouse. O Pipeline Keeper gera um pipeline do Azure Data Factory com retries, lógica de checkpoint e uma regra /quality-gate para frescor e unicidade de chave primária. Após revisão, um único PR faz merge de 14 arquivos; Actions deploya o pipeline no Azure Data Factory. A primeira execução aterrissa dentro de uma hora; o grafo de linhagem atualiza durante a noite.

Exemplo 2: capturando drift de schema antes da produção

Uma tabela do Synapse ganha uma coluna. O PR dispara /schema-diff, que identifica três relatórios do Power BI e dois consumidores do Azure SQL Database. O Pipeline Keeper sinaliza um consumidor que assume selects posicionais fixos; o Engenheiro de Dados atualiza o SQL e solicita um teste de compatibilidade. O merge prossegue sem surpresa para finanças ou analytics.

Exemplo 3: matando uma query descontrolada do Synapse

Durante a noite, o Azure Monitor dispara uma anomalia de custo. O hook on-cost-anomaly abre uma issue atribuída ao dono do Pipeline Keeper. Na manhã seguinte, o Engenheiro de Dados identifica um predicado faltante; /schema-diff mostra o plano de consulta afetado; uma correção de uma linha faz merge e o custo retorna à linha base.

Anti-padrões

Notebooks como produção. Se um notebook produz um sinal do qual o negócio depende, ele pertence a um pipeline versionado com testes.
Migrações confiança-cega. Migrações sem um plano de rollback não são seguras, independentemente da confiança do time.
Verificações de qualidade só em dashboards. Regras de qualidade pertencem ao CI e a hooks de runtime, não a um monitor que alguém pode olhar.
Linhagem de memória. Cada dataset deve ter uma entrada de linhagem gerada; o grafo é a fonte da verdade.
PII não classificado. Trate cada coluna não rotulada como sensível até que o Purview diga o contrário.
Pipelines sem alertas. Um pipeline falhando que não aciona ninguém é um bug.
Retries artesanais. Use políticas de retry nativas do pipeline; lógica de retry customizada é um incidente futuro.

KPIs e métricas de impacto

Métrica	Linha base (manual)	Meta (agêntico)	Fonte
Tempo de integração de pipeline	7 dias	< 1 dia	Lead time de PR no GitHub
Incidentes de drift de schema por trimestre	8	0	Relatórios de `/schema-diff`
Cobertura do gate de qualidade de dados	40 por cento	100 por cento	Verificação no CI
Tempo médio para detectar falha de pipeline	2 horas	< 5 minutos	Alertas do Azure Monitor
Anomalias de custo não resolvidas > 24h	5 por trimestre	0	Azure Monitor, hook de custo
Frescor do mapa de linhagem	Semanal	Em tempo real no merge	Exportação de linhagem do Fabric
Classificações de PII sincronizadas	Ad hoc	Diariamente	Microsoft Purview

Maturidade em quatro níveis

L1 Manual: Notebooks por email, migrações em um drive compartilhado, sem testes, sem linhagem.
L2 Assistido: Autocomplete do Copilot em SQL, alguns pipelines no Azure Data Factory, mas sem schema diff e sem gate de qualidade.
L3 Aumentado: Agente Pipeline Keeper, quatro slash prompts, instruções com escopo, gate de qualidade no CI, linhagem atualizada semanalmente.
L4 Autônomo: Gate de qualidade bloqueando merges, anomalias de custo abrindo issues em minutos, linhagem atualizada a cada merge, classificações do Purview propagadas nos testes.

Integração com outras personas

Do Business Analyst: requisitos de dados mapeados para EARS, contratos de sistema-fonte.
Do Software Architect: restrições de armazenamento e throughput, seleção de plataforma alvo.
Com o DBA: governança de schema compartilhada para stores operacionais; revisões de migração.
Para o ML AI Engineer: datasets de features curados no Microsoft Fabric com linhagem documentada.
Para o BI Analyst: datasets certificados com garantias de frescor e completude.
Para o SRE: runbooks do Azure Monitor para falhas de pipeline.
Para o Compliance Auditor: classificações do Purview, mapa de linhagem e histórico de gates de qualidade como evidência de auditoria.

Glossário

Pipeline: uma definição versionada e testável que move ou transforma dados.
Gate de qualidade: um conjunto de verificações automatizadas (frescor, completude, schema) bloqueando um merge ou release.
Schema diff: uma comparação estruturada de versões de schema com análise de impacto downstream.
Linhagem: o grafo direcionado do sistema-fonte ao dataset consumidor, com transformações entre eles.
Zona curada: a camada do Microsoft Fabric ou Synapse onde os dados são confiáveis e reportados.
Idempotente: um pipeline que produz o mesmo resultado seja executado uma ou dez vezes na mesma entrada.
Rollback: um script de migração reversível que retorna o schema a um estado anterior.

Referências

Documentação do Azure Data Factory — orientação autoritativa sobre pipelines de ingestão
Azure Synapse Analytics — transformação em escala
Documentação do Microsoft Fabric — lakehouse, notebooks, pipelines, linhagem
Azure SQL Database — store relacional operacional
Azure Cosmos DB — store de documentos distribuído globalmente
Microsoft Purview — governança e classificação de dados
Azure Monitor — observabilidade e detecção de anomalias de custo
GitHub Actions — orquestração de CI e deploy em todo o stack
Microsoft Learn Docs MCP — recuperação de documentação first-party no momento da implementação
GitHub Advanced Security — CodeQL, Dependabot, Secret Scanning, Push Protection