Ingeniero de Datos
Pipelines y calidad de datos.
El Data Engineer es la persona que construye y opera los pipelines de datos de los que el resto de la organización depende. En un SDLC AI-nativo, el Data Engineer opera un agente Pipeline Keeper, cuatro slash prompts y un catálogo validado de MCPs que abarcan Azure Data Factory, Synapse, Fabric, SQL Database y Cosmos DB — no un bosque de notebooks frágiles.
Resumen ejecutivo
El Data Engineer es responsable del movimiento, transformación y calidad de los datos entre sistemas. En un SDLC AI-nativo, los deliverables primarios son pipelines idempotentes, migraciones de schema probadas, quality gates ejecutadas en CI y un mapa de lineage que cualquier stakeholder pueda leer. El kit de herramientas es fijo: el agente Pipeline Keeper, los slash prompts /etl-scaffold, /schema-diff, /quality-gate, /lineage-map, instrucciones con alcance para SQL y definiciones de pipeline, y MCPs validados que alcanzan Azure Data Factory, Azure Synapse, Microsoft Fabric, Azure SQL Database y Azure Cosmos DB.
El Data Engineer protege a la organización de los modos de falla de datos más comunes: drift silencioso de schema, nulos faltantes que se convierten en joins envenenados, datos que llegan tarde rompiendo contratos downstream y pipelines que tienen éxito mientras producen resultados sutilmente incorrectos. Cada pipeline se entrega con pruebas, una entrada de lineage y un data-quality gate.
El trabajo de datos es ahora inseparable del trabajo de software. Los pipelines son código, revisados en GitHub, probados en Actions, gobernados por Microsoft Purview y observados a través de Azure Monitor.
Rol y responsabilidades
Piensa en el Data Engineer como el maestro de puentes de un sistema municipal de agua. Las tuberías mueven agua desde depósitos hasta vecindarios; medidores, válvulas y estaciones de prueba aseguran la calidad; cualquier fuga o contaminación debe ser detectada y desviada antes de la llave de cocina. En un SDLC AI-nativo, el Data Engineer es dueño de esa plomería para hechos en lugar de líquido.
Responsabilidades principales:
- Diseñar y operar pipelines de ingesta en Azure Data Factory y Microsoft Fabric
- Ser dueño de las transformaciones en Azure Synapse y capas curadas en Microsoft Fabric lakehouses
- Modelar stores operacionales en Azure SQL Database y Azure Cosmos DB
- Versionar cada cambio de schema con migraciones idempotentes y reversibles
- Ejecutar quality gates: validación de schema, tasas de nulos, freshness, deltas de conteo de filas
- Producir y mantener un mapa de lineage para cada dataset, consultable por consumidores downstream
- Operar el agente Pipeline Keeper y los slash prompts
/etl-scaffold,/schema-diff,/quality-gate,/lineage-map - Colaborar con el DBA en schemas operacionales y con el ML/AI Engineer en feature stores
Jobs to be done
- Como Data Engineer, quiero estructurar un nuevo pipeline ETL en minutos, para que la incorporación de una nueva fuente no sea un ticket de una semana.
- Como Data Engineer, quiero que cada cambio de schema sea revisado con un diff y reporte de impacto, para que ninguna ruptura silenciosa llegue a producción.
- Como Data Engineer, quiero un quality gate en cada dataset, para que los consumidores downstream confíen en la freshness y completitud.
- Como Data Engineer, quiero un mapa de lineage en vivo, para que el análisis de impacto de un cambio de schema sea una consulta, no una reunión.
- Como Data Engineer, quiero que los fallos de pipeline produzcan alertas accionables en Azure Monitor, para que el trabajo on-call sea priorizado correctamente.
- Como Data Engineer, quiero que las anomalías de costo en Synapse y Fabric sean detectadas automáticamente, para que los trabajos sin control no exploten el presupuesto mensual.
- Como Data Engineer, quiero que las clasificaciones de datos sensibles de Microsoft Purview se propaguen en las pruebas de pipeline, para que el manejo de PII esté probado, no asumido.
- Como Data Engineer, quiero que cada transformación esté expresada en código versionado, para que ningún SQL único viva solo en un notebook.
Dolores antes del AI-nativo
- Arqueología de notebooks. La lógica crítica vive en notebooks sin pruebas que hacen referencia a columnas por posición.
- Drift silencioso de schema. Una fuente agrega una columna; un join duplica silenciosamente filas; un reporte es incorrecto por una semana.
- Controles de calidad después del hecho. Las reglas de data-quality se ejecutan en un dashboard separado que el equipo olvida abrir.
- Lineage en cabezas. Solo el Data Engineer senior sabe qué tabla alimenta qué reporte.
- Sorpresas de costo. Un pool de Synapse mal configurado se ejecuta durante la noche; el equipo de finanzas se da cuenta antes que engineering.
- Pipeline como copo de nieve. Cada pipeline inventó sus propias convenciones de retry, logging y alerting.
- Sin rollback. Las migraciones se ejecutaban solo hacia adelante; revertir un cambio malo requería una restauración.
Flujo diario AI-nativo
El Data Engineer trabaja desde Visual Studio Code con GitHub Copilot y desde la terminal con Claude Code, invocando el agente Pipeline Keeper a lo largo del día.
Setup matinal
- Abre Azure Monitor y Microsoft Fabric monitoring para revisar los pipeline runs de la noche.
- En VS Code, ejecuta
/quality-gate --since=yesterdaypara exponer cualquier dataset que haya fallado en los controles de freshness o completitud. - Revisa los schema PRs pendientes; el Pipeline Keeper ha pre-redactado reportes de
/schema-diff. - Confirma las actualizaciones de clasificación de Microsoft Purview del equipo de Governance.
- Publica el resumen diario de Salud de Datos a Microsoft Teams con links a cualquier incidente abierto.
Ciclo de ejecución al mediodía
- Para cada nueva fuente, invoca
/etl-scaffoldcon los metadatos de la fuente; el Pipeline Keeper genera una definición de pipeline de Azure Data Factory, dataflow de Fabric o notebook de Synapse con pruebas. - Para cada schema PR, ejecuta
/schema-diffpara producir el reporte de impacto (tablas downstream, reportes, pipelines) y adjúntalo al PR. - Implementa transformaciones en SQL o PySpark con instrucciones con alcance que ejecuten estilo y seguridad.
- Integra
/quality-gateen el workflow de CI para que los merges se bloqueen en reglas rotas de freshness o nullability.
Revisión al final de la tarde
- Ejecuta
/lineage-mappara refrescar el gráfico de lineage; exporta a Microsoft Fabric y haz push de una snapshot de Markdown al repo. - Triage cualquier anomalía de costo reportada por Azure Monitor y abre issues de seguimiento.
- Trabaja en pareja con el DBA en migraciones próximas para stores operacionales.
Primitivas recomendadas
Agente
| Agente | Archivo | Propósito |
|---|---|---|
pipeline-keeper | .github/agents/pipeline-keeper.agent.md | Estructura pipelines, diferencia schemas, ejecuta quality gates, refresca lineage |
Slash prompts
| Comando | Archivo | Propósito |
|---|---|---|
/etl-scaffold | .github/prompts/etl-scaffold.prompt.md | Genera un pipeline de ingesta con pruebas, retries y quality gate |
/schema-diff | .github/prompts/schema-diff.prompt.md | Diferencia cambios de schema y reporta impacto downstream |
/quality-gate | .github/prompts/quality-gate.prompt.md | Ejecuta controles de data-quality en CI y bloquea merge en fallo |
/lineage-map | .github/prompts/lineage-map.prompt.md | Refresca el gráfico de lineage y exporta a Fabric |
Instrucciones con alcance
Alcance (applyTo) | Archivo | Propósito |
|---|---|---|
**/*.sql | .github/instructions/sql.instructions.md | Migraciones idempotentes, pasos down reversibles, sin DDL destructivo fuera de revisión |
pipelines/**/*.json | .github/instructions/adf.instructions.md | Convenciones de pipeline de Azure Data Factory, retries, alertas |
fabric/**/*.py | .github/instructions/fabric.instructions.md | Estándares de notebook y dataflow de Microsoft Fabric |
cosmos/**/*.ts | .github/instructions/cosmos.instructions.md | Reglas de partition key de Azure Cosmos DB y uso de SDK |
Hooks
pre-commit: SQL lint, comprobación de clasificación de Purview, escaneo de secretospre-push: ejecuta pruebas unitarias en transformaciones y schema diff en DDL modificadopost-merge: despliega definiciones de pipeline via GitHub Actions a Azure Data Factorynightly: ejecuta quality gate completo y refresca lineageon-cost-anomaly: abre un issue cuando las métricas de costo de Azure Monitor superan un umbral
MCPs validados
| MCP | Propósito | Dueño |
|---|---|---|
| GitHub MCP Server | PRs, runs de Actions, reportes de schema-diff | GitHub |
| Azure MCP Server | Impulsa operaciones de Azure Data Factory, Synapse, Fabric, SQL y Cosmos DB | Microsoft |
| Microsoft Learn Docs MCP | Resuelve documentación actual de servicios de datos de Azure durante la implementación | Microsoft |
| Azure DevOps MCP Server | Runbooks de pipeline y rastreo de work-items para proyectos de datos | Microsoft |
| Playwright MCP | Validación end-to-end de superficies de datos expuestas vía web apps | Microsoft |
Ejemplos reales
Escenario 1: incorporar una nueva fuente SaaS
Una nueva alimentación de CRM necesita ingesta. El Data Engineer ejecuta /etl-scaffold --source=crm-api --target=fabric-lakehouse. El Pipeline Keeper genera un pipeline de Azure Data Factory con retries, lógica de checkpoint y una regla de /quality-gate para freshness y unicidad de clave primaria. Después de revisión, un único PR fusiona 14 archivos; Actions despliega el pipeline a Azure Data Factory. El primer run se completa dentro de la hora; el gráfico de lineage se actualiza durante la noche.
Escenario 2: capturar drift de schema antes de producción
Una tabla de Synapse gana una columna. El PR dispara /schema-diff, que identifica tres reportes Power BI downstream y dos consumidores de Azure SQL Database. El Pipeline Keeper marca un consumidor que asume selects posicionales fijos; el Data Engineer actualiza el SQL y solicita una prueba de compatibilidad. El merge procede sin sorpresas para finanzas o analytics.
Escenario 3: matar una query de Synapse sin control
Durante la noche, Azure Monitor dispara una anomalía de costo. El hook on-cost-anomaly abre un issue asignado al propietario del Pipeline Keeper. La mañana siguiente, el Data Engineer identifica un predicado faltante; /schema-diff muestra el plan de query afectado; un fix de una línea se fusiona y el costo vuelve a la baseline.
Anti-patrones
- Notebooks como producción. Si un notebook produce una señal en la que el negocio confía, pertenece a un pipeline versionado con pruebas.
- Migraciones de confianza ciega. Las migraciones sin un plan de rollback no son seguras, independientemente de la confianza del equipo.
- Controles de calidad solo en dashboards. Las reglas de calidad pertenecen en CI y en hooks de tiempo de ejecución, no en un monitor que alguien podría mirar.
- Lineage en memoria. Cada dataset debe tener una entrada de lineage generada; el gráfico es la fuente de verdad.
- PII sin clasificar. Trata cada columna sin etiquetar como sensible hasta que Purview diga lo contrario.
- Pipelines sin alertas. Un pipeline que falla y no notifica a nadie es un bug.
- Retries hechos a mano. Usa políticas de retry nativas del pipeline; la lógica de retry personalizada es un incidente futuro.
KPIs y métricas de impacto
| Métrica | Baseline (manual) | Objetivo (agéntico) | Fuente |
|---|---|---|---|
| Tiempo de incorporación de pipeline | 7 días | < 1 día | Tiempo de lead del PR de GitHub |
| Incidentes de schema-drift por trimestre | 8 | 0 | Reportes de /schema-diff |
| Cobertura de data-quality gate | 40 por ciento | 100 por ciento | Comprobación de CI |
| Tiempo medio para detectar fallo de pipeline | 2 horas | < 5 minutos | Alertas de Azure Monitor |
| Anomalías de costo sin resolver > 24h | 5 por trimestre | 0 | Azure Monitor, hook de costo |
| Freshness del mapa de lineage | Semanal | En vivo en merge | Exportación de lineage de Fabric |
| Clasificaciones de PII sincronizadas | Ad hoc | Diariamente | Microsoft Purview |
Madurez en cuatro niveles
- L1 Manual: Notebooks en email, migraciones en una unidad compartida, sin pruebas, sin lineage.
- L2 Asistido: Autocompletado de Copilot en SQL, algunos pipelines en Azure Data Factory, pero sin schema diff y sin quality gate.
- L3 Aumentado: Agente Pipeline Keeper, cuatro slash prompts, instrucciones con alcance, quality gate en CI, lineage refrescado semanalmente.
- L4 Autónomo: Quality gate bloqueando merges, anomalías de costo abriendo issues en minutos, lineage refrescado en cada merge, clasificaciones de Purview propagadas a pruebas.
Integración con otras personas
- Del Business Analyst: requisitos de datos mapeados a EARS, contratos de sistemas de origen.
- Del Software Architect: restricciones de almacenamiento y throughput, selección de plataforma objetivo.
- Con el DBA: gobernanza compartida de schema para stores operacionales; revisiones de migración.
- Para el ML/AI Engineer: datasets de feature curados en Microsoft Fabric con un lineage documentado.
- Para el BI Analyst: datasets certificados con garantías de freshness y completitud.
- Para el SRE: runbooks de Azure Monitor para fallos de pipeline.
- Para el Compliance Auditor: clasificaciones de Purview, mapa de lineage e historial de quality-gate como evidencia de auditoría.
Glosario
- Pipeline: una definición versionada y testeable que mueve o transforma datos.
- Quality gate: un conjunto de comprobaciones automatizadas (freshness, completitud, schema) que actúan como compuerta en un merge o release.
- Schema diff: una comparación estructurada de versiones de schema con análisis de impacto downstream.
- Lineage: el gráfico dirigido desde el sistema de origen hasta el dataset consumidor, con transformaciones entre ellos.
- Zona curada: la capa de Microsoft Fabric o Synapse donde los datos son confiables y se reportan.
- Idempotente: un pipeline que produce el mismo resultado ya sea ejecutado una o diez veces con la misma entrada.
- Rollback: un script de migración reversible que devuelve el schema a un estado anterior.
Referencias
- Documentación de Azure Data Factory — orientación autoritativa en pipelines de ingesta
- Azure Synapse Analytics — transformación a escala
- Documentación de Microsoft Fabric — lakehouse, notebooks, pipelines, lineage
- Azure SQL Database — store relacional operacional
- Azure Cosmos DB — store de documentos distribuido globalmente
- Microsoft Purview — gobernanza y clasificación de datos
- Azure Monitor — observabilidad y detección de anomalías de costo
- GitHub Actions — orquestación de CI y deployment a través del stack
- Microsoft Learn Docs MCP — recuperación de documentación first-party en tiempo de implementación
- GitHub Advanced Security — CodeQL, Dependabot, Secret Scanning, Push Protection