ML/AI Engineer · Personas del SDLC Agéntico

El ML/AI Engineer es la persona que lleva modelos y features potenciadas por LLM desde el prototipo a producción. En un SDLC AI-nativo, el ML/AI Engineer opera un agente Eval Runner, cuatro slash prompts, y un catálogo de MCPs validados centrado en Azure AI Foundry, Azure OpenAI y Azure Machine Learning — no un montón de notebooks improvisados.

Resumen ejecutivo

El ML/AI Engineer es responsable de la confiabilidad del comportamiento de la IA: calidad del modelo, estabilidad del prompt, decisiones de routing y topología de despliegue. En un SDLC AI-nativo, el rol se operacionaliza a través de un único agente Eval Runner, cuatro slash prompts, instrucciones con alcance, y MCPs validados que alcanzan Azure AI Foundry, Azure OpenAI, Azure Machine Learning, y Microsoft Learn Docs MCP.

Los entregables primarios son suites de evaluación versionadas, configuraciones de routing de modelos con decisiones trazables, dashboards de regresión de prompts, y artefactos de despliegue de Foundry con planes de rollback. El ML/AI Engineer cierra el loop desde cambio de modelo hasta telemetría de producción: ningún modelo se despliega sin una línea base de eval, y ninguna regresión sobrevive la noche.

El comportamiento de la IA es comportamiento de software. Los evals son pruebas, los prompts son código, el routing es configuración, y los despliegues son PRs. El ML/AI Engineer hace que la capa de IA obedezca la misma gobernanza que cualquier otro sistema en producción.

Rol y responsabilidades

Piensa en el ML/AI Engineer como un ingeniero de procesos farmacéutico. El químico inventa el compuesto; el ingeniero de procesos asegura que cada lote cumpla con la monografía, con pruebas en cada etapa. En un SDLC AI-nativo, el ML/AI Engineer convierte trabajo exploratorio de modelos en comportamiento de producción repetible y auditable.

Responsabilidades principales:

Mantener la suite de evaluación: datasets, métricas, regresiones por feature
Operar el routing de modelos (qué modelo, qué versión, qué tenant) en Azure AI Foundry
Rastrear cambios de prompts con pruebas de regresión e informes de diff
Desplegar modelos y agentes a Azure AI Foundry con artefactos listos para rollback
Entrenar y ajustar modelos en Azure Machine Learning con experimentos versionados
Integrar sistemas de seguridad (filtros de contenido, sensibilidad de Purview) en la pipeline del modelo
Operar el agente Eval Runner y los prompts /eval-suite, /model-route, /prompt-regression, /foundry-deploy
Colaborar con el Data Engineer en datasets de features y con el InfoSec Officer en modelos de amenaza para IA

Jobs to be done

Como ML/AI Engineer, quiero que cada cambio de prompt esté validado por una prueba de regresión, para que la calidad no se degrade silenciosamente.
Como ML/AI Engineer, quiero que las suites de eval estén versionadas con el modelo, para que pueda reproducir cualquier línea base pasada bajo demanda.
Como ML/AI Engineer, quiero despliegues seguros en producción vía Azure AI Foundry con rollback de un clic, para que los incidentes no dejen usuarios abandonados.
Como ML/AI Engineer, quiero que el routing de modelos sea código, no conocimiento tribal, para que cada decisión de routing sea revisable.
Como ML/AI Engineer, quiero que los filtros de seguridad estén integrados y probados, para que las violaciones de content-safety se capturen en CI.
Como ML/AI Engineer, quiero que los experimentos de entrenamiento estén registrados en Azure Machine Learning, para que la reproducibilidad sea automática.
Como ML/AI Engineer, quiero que las señales de Application Insights de modelos desplegados alimenten el próximo eval, para que el loop se cierre a sí mismo.
Como ML/AI Engineer, quiero que los presupuestos de costo y latencia se ejecuten por modelo y por tenant, para que la inferencia descontrolada sea imposible.

Puntos de dolor antes de la era AI-nativa

Cambios de prompt sin eval. Los prompts cambiados apresuradamente degradan la calidad; nadie lo nota hasta que un usuario se queja.
Ruleta de modelos. ¿Qué modelo sirvió una solicitud dada? Nadie puede decirlo; los casos de soporte tardan horas en reproducirse.
Despliegue y reza. Modelos desplegados a mano a Azure AI Foundry o endpoints de OpenAI sin plan de rollback.
Explosiones de costo. Una cadena mal diseñada llama modelos de clase GPT cien veces por solicitud; la factura llega a fin de mes.
Seguridad como ocurrencia tardía. Filtros de contenido y redacción de PII agregados solo después de un incidente.
Linaje de entrenamiento perdido. Los artefactos de entrenamiento del mejor modelo existen solo en una laptop.
Prompt en código. Prompts incrustados en código de aplicación en lugar de archivos controlados por versión con revisiones.

Flujo diario AI-nativo

El ML/AI Engineer trabaja desde Visual Studio Code con GitHub Copilot y desde la terminal con Claude Code, impulsando el Eval Runner a lo largo del día.

Setup de la mañana

Abre los dashboards de Azure AI Foundry y Application Insights; revisa las métricas de inferencia nocturna y eventos de safety-filter.
En VS Code, ejecuta /eval-suite --since=yesterday para ver cualquier regresión de eval en prompts o modelos mergeados.
Triage PRs que cambien prompts o routing; el Eval Runner ha pre-publicado diffs de /prompt-regression.
Confirma la cola de experimentos de Azure Machine Learning desde la pista de entrenamiento.
Sincroniza con el Data Engineer en datasets de features nuevos o cambiados alimentando el entrenamiento.

Ejecución al mediodía

Para cada cambio de feature, ejecuta /eval-suite contra el modelo o prompt propuesto; rechaza el PR si la puntuación cae por debajo del umbral.
Para cambios de routing, invoca /model-route para generar o actualizar la configuración de routing con la razón de la decisión.
Implementa ejecuciones de entrenamiento a través de /foundry-deploy --stage=experiment; los resultados se registran en Azure Machine Learning.
Mantén prompts en prompts/*.prompt.md con instrucciones con alcance; sin prompts inline en código de aplicación.

Revisión al final de la tarde

Despliega modelos aprobados vía /foundry-deploy --stage=prod. Azure AI Foundry recibe un despliegue versionado con metadatos de rollback.
Vigila la siguiente hora de telemetría de Application Insights para anomalías; revierte automáticamente si se activan guardrails.
Revisa telemetría de costo por tenant; abre issues para outliers.

Primitivas recomendadas

Agente

Agente	Archivo	Propósito
`eval-runner`	`.github/agents/eval-runner.agent.md`	Ejecuta suites de eval, regresiones de prompts, actualizaciones de routing, despliegues de Foundry

Slash prompts

Comando	Archivo	Propósito
`/eval-suite`	`.github/prompts/eval-suite.prompt.md`	Ejecuta la suite de evaluación y publica informes puntuados
`/model-route`	`.github/prompts/model-route.prompt.md`	Actualiza y valida la configuración de routing de modelos
`/prompt-regression`	`.github/prompts/prompt-regression.prompt.md`	Ejecuta pruebas de regresión contra prompts cambiados
`/foundry-deploy`	`.github/prompts/foundry-deploy.prompt.md`	Prepara o promociona un modelo o agente en Azure AI Foundry con metadatos de rollback

Instrucciones con alcance

Alcance (`applyTo`)	Archivo	Propósito
`prompts/*/.prompt.md`	`.github/instructions/prompts.instructions.md`	Estructura de prompt, encabezado de versión, bloque de seguridad, referencia de eval
`evals/*/.yaml`	`.github/instructions/evals.instructions.md`	Estructura de dataset de eval, definiciones de métricas, umbrales
`foundry/*/.bicep`	`.github/instructions/foundry.instructions.md`	Plantillas de despliegue de Azure AI Foundry, identidad, rollback
`aml/*/.py`	`.github/instructions/aml.instructions.md`	Scaffolding de experimentos de Azure Machine Learning

Hooks

pre-commit: lint prompts, verifica encabezados de metadatos requeridos, redacta secretos
pre-push: ejecuta subset de eval en prompts y modelos cambiados
post-merge: ejecuta suite de eval completa y publica el dashboard
pre-deploy: ejecuta metadatos de rollback y gates de política de Foundry
post-deploy: vigila Application Insights por 60 minutos; rollback automático en anomalía

MCPs validados

MCP	Propósito	Dueño
GitHub MCP Server	PRs, ejecuciones de Actions, comentarios en informes de eval	GitHub
Azure MCP Server	Operar Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application Insights	Microsoft
Microsoft Learn Docs MCP	Busca orientación actual sobre patrones de Foundry, OpenAI y AML	Microsoft
Azure DevOps MCP Server	Rastrea experimentos de ML como work items cuando el equipo usa Azure DevOps	Microsoft
Playwright MCP	Evaluación end-to-end de features de IA incrustadas en UIs web	Microsoft

Ejemplos reales

Escenario A: validar un cambio de prompt

Un Product Owner solicita un tono más amigable en un asistente de soporte. Un PR edita prompts/support-assistant.prompt.md. El hook pre-push ejecuta /prompt-regression; el Eval Runner califica el cambio contra la suite de eval versionada. Dos métricas de utilidad suben, pero una métrica de groundedness cae por debajo del umbral. El PR se bloquea; el ML/AI Engineer agrega una restricción al prompt; la siguiente ejecución pasa y el PR se fusiona.

Escenario B: actualización segura de modelo

Una nueva versión de un modelo de clase GPT está disponible en Azure OpenAI. El ML/AI Engineer abre un PR modificando la configuración de routing vía /model-route. /eval-suite se ejecuta contra un dataset retenido; los presupuestos de costo y latencia se respetan; las activaciones de safety-filter permanecen dentro de tolerancia. /foundry-deploy --stage=prod despliega; el monitoreo post-despliegue por 60 minutos confirma sin regresión. La versión antigua permanece activa por 24 horas para rollback.

Escenario C: cerrando el loop de telemetría

Application Insights muestra un pico en menciones de entidades alucinadas para un tenant específico. El ML/AI Engineer invoca /eval-suite --from=prod-telemetry --tenant=acme; el Eval Runner construye un nuevo slice de eval desde casos recientes, lo ejecuta contra dos prompts candidatos, y recomienda el ganador. Un PR aterroriza el cambio con el nuevo slice de eval añadido a la suite de regresión permanentemente.

Anti-patrones

Prompts en código de aplicación. Los prompts inline no pueden ser revisados como cambios; mantenlos en prompts/*.
Evals opcionales. Cada prompt o modelo dirigido a producción tiene al menos un dataset de eval con umbrales.
Routing construido a mano. El routing como una serie de sentencias if en código no es revisable; mantenlo en una configuración declarativa.
Despliegues sin rollback. Cada despliegue de Foundry se envía con metadatos habilitando rollback de un clic.
Entrenamiento en una laptop. Usa Azure Machine Learning; los experimentos deben ser reproducibles desde la definición del job.
Filtros de seguridad pernados. La seguridad de contenido es parte de la pipeline desde el inicio, no una respuesta a incidente.
Evals que nunca cambian. Los datasets de eval se pudren; agrega casos reales de producción regularmente vía telemetry loops.

KPIs y métricas de impacto

Métrica	Baseline (manual)	Objetivo (agéntico)	Fuente
Regresiones de prompt enviadas a prod	4 por trimestre	0	Historial de Eval Runner
Cobertura de eval en prompts de producción	30 por ciento	100 por ciento	Escaneo de repo
Tiempo desde lanzamiento de modelo a despliegue de prod evaluado	2 semanas	< 2 días	GitHub + Azure AI Foundry
Violaciones de safety-filter por 1M solicitudes	Sin medir	< 10	Application Insights
Costo por 1K solicitudes (p50)	Drift	Dentro del 10 por ciento del presupuesto	Datos de costo de Azure
Tiempo de rollback después de anomalía de despliegue	Horas	< 5 minutos	Azure AI Foundry
Experimentos reproducibles desde Git	40 por ciento	100 por ciento	Jobs de Azure Machine Learning

Madurez en cuatro niveles

L1 Manual: Prompts en código, evals en notebooks, despliegues por clics de consola, sin configuración de routing.
L2 Asistido: Copilot redacta prompts y código de entrenamiento, evals en un notebook, configuración de modelo único.
L3 Aumentado: Agente Eval Runner, cuatro slash prompts, instrucciones con alcance, despliegues de Foundry desde GitHub Actions.
L4 Autónomo: Cambios de prompt y routing validados por evals, telemetría alimentando el próximo eval automáticamente, rollback en anomalía dentro de cinco minutos.

Integración con otras personas

Del Data Engineer: datasets de features curados en Microsoft Fabric con linaje documentado.
Del Software Architect: decisiones de topología de IA (qué tier llama qué modelo) y presupuestos de latencia.
Para el Developer: archivos de prompt y configuración de routing consumidos del repo; sin prompts inline.
Con InfoSec Officer: modelo de amenaza de IA, configuración de content-safety, políticas de redacción de PII.
Con SRE: monitoreo de producción, automatización de rollback, telemetría de costo.
Para el Product Owner: dashboards de eval e informes de regresión durante revisión de lanzamiento.
Con Compliance Auditor: model cards, procedencia de entrenamiento, evidencia de filtro de seguridad.

Glosario

Suite de eval: un conjunto versionado de datasets, métricas, y umbrales utilizados para calificar un modelo o prompt.
Prompt regression: una comparación de puntuaciones de eval antes y después de un cambio de prompt.
Routing: el mapeo declarativo desde contexto de solicitud a modelo, versión, y parámetros.
Despliegue de Foundry: un lanzamiento versionado de un modelo o agente en Azure AI Foundry con metadatos de rollback.
Groundedness: una métrica que describe qué fielmente la respuesta de un modelo refleja su contexto recuperado.
Safety filter: un componente de content-safety de Azure que bloquea o marca salidas no permitidas.
Telemetry loop: el proceso de convertir señales de producción en nuevos casos de eval.

Referencias

Documentación de Azure AI Foundry — agentes, modelos, evaluaciones
Azure OpenAI Service — modelos de OpenAI vía Azure
Azure Machine Learning — entrenamiento y rastreo de experimentos
Azure AI Content Safety — filtrado de seguridad
Application Insights para apps de LLM — telemetría de producción
GitHub Copilot y agentes — integración de flujo de trabajo de desarrollador
Microsoft Purview para gobernanza de datos de IA — clasificación de sensibilidad de datos de entrenamiento
GitHub Actions — orquestación de CI y despliegue en toda la pila
Microsoft Learn Docs MCP — recuperación de documentación de primer nivel en tiempo de implementación
GitHub Advanced Security — CodeQL, Dependabot, Secret Scanning, Push Protection