ML/AI Engineer
Entrenamiento y evaluación de modelos.
El ML/AI Engineer es la persona que lleva modelos y features potenciadas por LLM desde el prototipo a producción. En un SDLC AI-nativo, el ML/AI Engineer opera un agente Eval Runner, cuatro slash prompts, y un catálogo de MCPs validados centrado en Azure AI Foundry, Azure OpenAI y Azure Machine Learning — no un montón de notebooks improvisados.
Resumen ejecutivo
El ML/AI Engineer es responsable de la confiabilidad del comportamiento de la IA: calidad del modelo, estabilidad del prompt, decisiones de routing y topología de despliegue. En un SDLC AI-nativo, el rol se operacionaliza a través de un único agente Eval Runner, cuatro slash prompts, instrucciones con alcance, y MCPs validados que alcanzan Azure AI Foundry, Azure OpenAI, Azure Machine Learning, y Microsoft Learn Docs MCP.
Los entregables primarios son suites de evaluación versionadas, configuraciones de routing de modelos con decisiones trazables, dashboards de regresión de prompts, y artefactos de despliegue de Foundry con planes de rollback. El ML/AI Engineer cierra el loop desde cambio de modelo hasta telemetría de producción: ningún modelo se despliega sin una línea base de eval, y ninguna regresión sobrevive la noche.
El comportamiento de la IA es comportamiento de software. Los evals son pruebas, los prompts son código, el routing es configuración, y los despliegues son PRs. El ML/AI Engineer hace que la capa de IA obedezca la misma gobernanza que cualquier otro sistema en producción.
Rol y responsabilidades
Piensa en el ML/AI Engineer como un ingeniero de procesos farmacéutico. El químico inventa el compuesto; el ingeniero de procesos asegura que cada lote cumpla con la monografía, con pruebas en cada etapa. En un SDLC AI-nativo, el ML/AI Engineer convierte trabajo exploratorio de modelos en comportamiento de producción repetible y auditable.
Responsabilidades principales:
- Mantener la suite de evaluación: datasets, métricas, regresiones por feature
- Operar el routing de modelos (qué modelo, qué versión, qué tenant) en Azure AI Foundry
- Rastrear cambios de prompts con pruebas de regresión e informes de diff
- Desplegar modelos y agentes a Azure AI Foundry con artefactos listos para rollback
- Entrenar y ajustar modelos en Azure Machine Learning con experimentos versionados
- Integrar sistemas de seguridad (filtros de contenido, sensibilidad de Purview) en la pipeline del modelo
- Operar el agente Eval Runner y los prompts
/eval-suite,/model-route,/prompt-regression,/foundry-deploy - Colaborar con el Data Engineer en datasets de features y con el InfoSec Officer en modelos de amenaza para IA
Jobs to be done
- Como ML/AI Engineer, quiero que cada cambio de prompt esté validado por una prueba de regresión, para que la calidad no se degrade silenciosamente.
- Como ML/AI Engineer, quiero que las suites de eval estén versionadas con el modelo, para que pueda reproducir cualquier línea base pasada bajo demanda.
- Como ML/AI Engineer, quiero despliegues seguros en producción vía Azure AI Foundry con rollback de un clic, para que los incidentes no dejen usuarios abandonados.
- Como ML/AI Engineer, quiero que el routing de modelos sea código, no conocimiento tribal, para que cada decisión de routing sea revisable.
- Como ML/AI Engineer, quiero que los filtros de seguridad estén integrados y probados, para que las violaciones de content-safety se capturen en CI.
- Como ML/AI Engineer, quiero que los experimentos de entrenamiento estén registrados en Azure Machine Learning, para que la reproducibilidad sea automática.
- Como ML/AI Engineer, quiero que las señales de Application Insights de modelos desplegados alimenten el próximo eval, para que el loop se cierre a sí mismo.
- Como ML/AI Engineer, quiero que los presupuestos de costo y latencia se ejecuten por modelo y por tenant, para que la inferencia descontrolada sea imposible.
Puntos de dolor antes de la era AI-nativa
- Cambios de prompt sin eval. Los prompts cambiados apresuradamente degradan la calidad; nadie lo nota hasta que un usuario se queja.
- Ruleta de modelos. ¿Qué modelo sirvió una solicitud dada? Nadie puede decirlo; los casos de soporte tardan horas en reproducirse.
- Despliegue y reza. Modelos desplegados a mano a Azure AI Foundry o endpoints de OpenAI sin plan de rollback.
- Explosiones de costo. Una cadena mal diseñada llama modelos de clase GPT cien veces por solicitud; la factura llega a fin de mes.
- Seguridad como ocurrencia tardía. Filtros de contenido y redacción de PII agregados solo después de un incidente.
- Linaje de entrenamiento perdido. Los artefactos de entrenamiento del mejor modelo existen solo en una laptop.
- Prompt en código. Prompts incrustados en código de aplicación en lugar de archivos controlados por versión con revisiones.
Flujo diario AI-nativo
El ML/AI Engineer trabaja desde Visual Studio Code con GitHub Copilot y desde la terminal con Claude Code, impulsando el Eval Runner a lo largo del día.
Setup de la mañana
- Abre los dashboards de Azure AI Foundry y Application Insights; revisa las métricas de inferencia nocturna y eventos de safety-filter.
- En VS Code, ejecuta
/eval-suite --since=yesterdaypara ver cualquier regresión de eval en prompts o modelos mergeados. - Triage PRs que cambien prompts o routing; el Eval Runner ha pre-publicado diffs de
/prompt-regression. - Confirma la cola de experimentos de Azure Machine Learning desde la pista de entrenamiento.
- Sincroniza con el Data Engineer en datasets de features nuevos o cambiados alimentando el entrenamiento.
Ejecución al mediodía
- Para cada cambio de feature, ejecuta
/eval-suitecontra el modelo o prompt propuesto; rechaza el PR si la puntuación cae por debajo del umbral. - Para cambios de routing, invoca
/model-routepara generar o actualizar la configuración de routing con la razón de la decisión. - Implementa ejecuciones de entrenamiento a través de
/foundry-deploy --stage=experiment; los resultados se registran en Azure Machine Learning. - Mantén prompts en
prompts/*.prompt.mdcon instrucciones con alcance; sin prompts inline en código de aplicación.
Revisión al final de la tarde
- Despliega modelos aprobados vía
/foundry-deploy --stage=prod. Azure AI Foundry recibe un despliegue versionado con metadatos de rollback. - Vigila la siguiente hora de telemetría de Application Insights para anomalías; revierte automáticamente si se activan guardrails.
- Revisa telemetría de costo por tenant; abre issues para outliers.
Primitivas recomendadas
Agente
| Agente | Archivo | Propósito |
|---|---|---|
eval-runner | .github/agents/eval-runner.agent.md | Ejecuta suites de eval, regresiones de prompts, actualizaciones de routing, despliegues de Foundry |
Slash prompts
| Comando | Archivo | Propósito |
|---|---|---|
/eval-suite | .github/prompts/eval-suite.prompt.md | Ejecuta la suite de evaluación y publica informes puntuados |
/model-route | .github/prompts/model-route.prompt.md | Actualiza y valida la configuración de routing de modelos |
/prompt-regression | .github/prompts/prompt-regression.prompt.md | Ejecuta pruebas de regresión contra prompts cambiados |
/foundry-deploy | .github/prompts/foundry-deploy.prompt.md | Prepara o promociona un modelo o agente en Azure AI Foundry con metadatos de rollback |
Instrucciones con alcance
Alcance (applyTo) | Archivo | Propósito |
|---|---|---|
prompts/**/*.prompt.md | .github/instructions/prompts.instructions.md | Estructura de prompt, encabezado de versión, bloque de seguridad, referencia de eval |
evals/**/*.yaml | .github/instructions/evals.instructions.md | Estructura de dataset de eval, definiciones de métricas, umbrales |
foundry/**/*.bicep | .github/instructions/foundry.instructions.md | Plantillas de despliegue de Azure AI Foundry, identidad, rollback |
aml/**/*.py | .github/instructions/aml.instructions.md | Scaffolding de experimentos de Azure Machine Learning |
Hooks
pre-commit: lint prompts, verifica encabezados de metadatos requeridos, redacta secretospre-push: ejecuta subset de eval en prompts y modelos cambiadospost-merge: ejecuta suite de eval completa y publica el dashboardpre-deploy: ejecuta metadatos de rollback y gates de política de Foundrypost-deploy: vigila Application Insights por 60 minutos; rollback automático en anomalía
MCPs validados
| MCP | Propósito | Dueño |
|---|---|---|
| GitHub MCP Server | PRs, ejecuciones de Actions, comentarios en informes de eval | GitHub |
| Azure MCP Server | Operar Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application Insights | Microsoft |
| Microsoft Learn Docs MCP | Busca orientación actual sobre patrones de Foundry, OpenAI y AML | Microsoft |
| Azure DevOps MCP Server | Rastrea experimentos de ML como work items cuando el equipo usa Azure DevOps | Microsoft |
| Playwright MCP | Evaluación end-to-end de features de IA incrustadas en UIs web | Microsoft |
Ejemplos reales
Escenario A: validar un cambio de prompt
Un Product Owner solicita un tono más amigable en un asistente de soporte. Un PR edita prompts/support-assistant.prompt.md. El hook pre-push ejecuta /prompt-regression; el Eval Runner califica el cambio contra la suite de eval versionada. Dos métricas de utilidad suben, pero una métrica de groundedness cae por debajo del umbral. El PR se bloquea; el ML/AI Engineer agrega una restricción al prompt; la siguiente ejecución pasa y el PR se fusiona.
Escenario B: actualización segura de modelo
Una nueva versión de un modelo de clase GPT está disponible en Azure OpenAI. El ML/AI Engineer abre un PR modificando la configuración de routing vía /model-route. /eval-suite se ejecuta contra un dataset retenido; los presupuestos de costo y latencia se respetan; las activaciones de safety-filter permanecen dentro de tolerancia. /foundry-deploy --stage=prod despliega; el monitoreo post-despliegue por 60 minutos confirma sin regresión. La versión antigua permanece activa por 24 horas para rollback.
Escenario C: cerrando el loop de telemetría
Application Insights muestra un pico en menciones de entidades alucinadas para un tenant específico. El ML/AI Engineer invoca /eval-suite --from=prod-telemetry --tenant=acme; el Eval Runner construye un nuevo slice de eval desde casos recientes, lo ejecuta contra dos prompts candidatos, y recomienda el ganador. Un PR aterroriza el cambio con el nuevo slice de eval añadido a la suite de regresión permanentemente.
Anti-patrones
- Prompts en código de aplicación. Los prompts inline no pueden ser revisados como cambios; mantenlos en
prompts/*. - Evals opcionales. Cada prompt o modelo dirigido a producción tiene al menos un dataset de eval con umbrales.
- Routing construido a mano. El routing como una serie de sentencias if en código no es revisable; mantenlo en una configuración declarativa.
- Despliegues sin rollback. Cada despliegue de Foundry se envía con metadatos habilitando rollback de un clic.
- Entrenamiento en una laptop. Usa Azure Machine Learning; los experimentos deben ser reproducibles desde la definición del job.
- Filtros de seguridad pernados. La seguridad de contenido es parte de la pipeline desde el inicio, no una respuesta a incidente.
- Evals que nunca cambian. Los datasets de eval se pudren; agrega casos reales de producción regularmente vía telemetry loops.
KPIs y métricas de impacto
| Métrica | Baseline (manual) | Objetivo (agéntico) | Fuente |
|---|---|---|---|
| Regresiones de prompt enviadas a prod | 4 por trimestre | 0 | Historial de Eval Runner |
| Cobertura de eval en prompts de producción | 30 por ciento | 100 por ciento | Escaneo de repo |
| Tiempo desde lanzamiento de modelo a despliegue de prod evaluado | 2 semanas | < 2 días | GitHub + Azure AI Foundry |
| Violaciones de safety-filter por 1M solicitudes | Sin medir | < 10 | Application Insights |
| Costo por 1K solicitudes (p50) | Drift | Dentro del 10 por ciento del presupuesto | Datos de costo de Azure |
| Tiempo de rollback después de anomalía de despliegue | Horas | < 5 minutos | Azure AI Foundry |
| Experimentos reproducibles desde Git | 40 por ciento | 100 por ciento | Jobs de Azure Machine Learning |
Madurez en cuatro niveles
- L1 Manual: Prompts en código, evals en notebooks, despliegues por clics de consola, sin configuración de routing.
- L2 Asistido: Copilot redacta prompts y código de entrenamiento, evals en un notebook, configuración de modelo único.
- L3 Aumentado: Agente Eval Runner, cuatro slash prompts, instrucciones con alcance, despliegues de Foundry desde GitHub Actions.
- L4 Autónomo: Cambios de prompt y routing validados por evals, telemetría alimentando el próximo eval automáticamente, rollback en anomalía dentro de cinco minutos.
Integración con otras personas
- Del Data Engineer: datasets de features curados en Microsoft Fabric con linaje documentado.
- Del Software Architect: decisiones de topología de IA (qué tier llama qué modelo) y presupuestos de latencia.
- Para el Developer: archivos de prompt y configuración de routing consumidos del repo; sin prompts inline.
- Con InfoSec Officer: modelo de amenaza de IA, configuración de content-safety, políticas de redacción de PII.
- Con SRE: monitoreo de producción, automatización de rollback, telemetría de costo.
- Para el Product Owner: dashboards de eval e informes de regresión durante revisión de lanzamiento.
- Con Compliance Auditor: model cards, procedencia de entrenamiento, evidencia de filtro de seguridad.
Glosario
- Suite de eval: un conjunto versionado de datasets, métricas, y umbrales utilizados para calificar un modelo o prompt.
- Prompt regression: una comparación de puntuaciones de eval antes y después de un cambio de prompt.
- Routing: el mapeo declarativo desde contexto de solicitud a modelo, versión, y parámetros.
- Despliegue de Foundry: un lanzamiento versionado de un modelo o agente en Azure AI Foundry con metadatos de rollback.
- Groundedness: una métrica que describe qué fielmente la respuesta de un modelo refleja su contexto recuperado.
- Safety filter: un componente de content-safety de Azure que bloquea o marca salidas no permitidas.
- Telemetry loop: el proceso de convertir señales de producción en nuevos casos de eval.
Referencias
- Documentación de Azure AI Foundry — agentes, modelos, evaluaciones
- Azure OpenAI Service — modelos de OpenAI vía Azure
- Azure Machine Learning — entrenamiento y rastreo de experimentos
- Azure AI Content Safety — filtrado de seguridad
- Application Insights para apps de LLM — telemetría de producción
- GitHub Copilot y agentes — integración de flujo de trabajo de desarrollador
- Microsoft Purview para gobernanza de datos de IA — clasificación de sensibilidad de datos de entrenamiento
- GitHub Actions — orquestación de CI y despliegue en toda la pila
- Microsoft Learn Docs MCP — recuperación de documentación de primer nivel en tiempo de implementación
- GitHub Advanced Security — CodeQL, Dependabot, Secret Scanning, Push Protection