16 data · Implementation

ML/AI Engineer

Entrenamiento y evaluación de modelos.

Actualizado: 2026-04-24 14 secciones Descargar .zip

El ML/AI Engineer es la persona que lleva modelos y features potenciadas por LLM desde el prototipo a producción. En un SDLC AI-nativo, el ML/AI Engineer opera un agente Eval Runner, cuatro slash prompts, y un catálogo de MCPs validados centrado en Azure AI Foundry, Azure OpenAI y Azure Machine Learning — no un montón de notebooks improvisados.

Resumen ejecutivo

El ML/AI Engineer es responsable de la confiabilidad del comportamiento de la IA: calidad del modelo, estabilidad del prompt, decisiones de routing y topología de despliegue. En un SDLC AI-nativo, el rol se operacionaliza a través de un único agente Eval Runner, cuatro slash prompts, instrucciones con alcance, y MCPs validados que alcanzan Azure AI Foundry, Azure OpenAI, Azure Machine Learning, y Microsoft Learn Docs MCP.

Los entregables primarios son suites de evaluación versionadas, configuraciones de routing de modelos con decisiones trazables, dashboards de regresión de prompts, y artefactos de despliegue de Foundry con planes de rollback. El ML/AI Engineer cierra el loop desde cambio de modelo hasta telemetría de producción: ningún modelo se despliega sin una línea base de eval, y ninguna regresión sobrevive la noche.

El comportamiento de la IA es comportamiento de software. Los evals son pruebas, los prompts son código, el routing es configuración, y los despliegues son PRs. El ML/AI Engineer hace que la capa de IA obedezca la misma gobernanza que cualquier otro sistema en producción.

Rol y responsabilidades

Piensa en el ML/AI Engineer como un ingeniero de procesos farmacéutico. El químico inventa el compuesto; el ingeniero de procesos asegura que cada lote cumpla con la monografía, con pruebas en cada etapa. En un SDLC AI-nativo, el ML/AI Engineer convierte trabajo exploratorio de modelos en comportamiento de producción repetible y auditable.

Responsabilidades principales:

  • Mantener la suite de evaluación: datasets, métricas, regresiones por feature
  • Operar el routing de modelos (qué modelo, qué versión, qué tenant) en Azure AI Foundry
  • Rastrear cambios de prompts con pruebas de regresión e informes de diff
  • Desplegar modelos y agentes a Azure AI Foundry con artefactos listos para rollback
  • Entrenar y ajustar modelos en Azure Machine Learning con experimentos versionados
  • Integrar sistemas de seguridad (filtros de contenido, sensibilidad de Purview) en la pipeline del modelo
  • Operar el agente Eval Runner y los prompts /eval-suite, /model-route, /prompt-regression, /foundry-deploy
  • Colaborar con el Data Engineer en datasets de features y con el InfoSec Officer en modelos de amenaza para IA

Jobs to be done

  1. Como ML/AI Engineer, quiero que cada cambio de prompt esté validado por una prueba de regresión, para que la calidad no se degrade silenciosamente.
  2. Como ML/AI Engineer, quiero que las suites de eval estén versionadas con el modelo, para que pueda reproducir cualquier línea base pasada bajo demanda.
  3. Como ML/AI Engineer, quiero despliegues seguros en producción vía Azure AI Foundry con rollback de un clic, para que los incidentes no dejen usuarios abandonados.
  4. Como ML/AI Engineer, quiero que el routing de modelos sea código, no conocimiento tribal, para que cada decisión de routing sea revisable.
  5. Como ML/AI Engineer, quiero que los filtros de seguridad estén integrados y probados, para que las violaciones de content-safety se capturen en CI.
  6. Como ML/AI Engineer, quiero que los experimentos de entrenamiento estén registrados en Azure Machine Learning, para que la reproducibilidad sea automática.
  7. Como ML/AI Engineer, quiero que las señales de Application Insights de modelos desplegados alimenten el próximo eval, para que el loop se cierre a sí mismo.
  8. Como ML/AI Engineer, quiero que los presupuestos de costo y latencia se ejecuten por modelo y por tenant, para que la inferencia descontrolada sea imposible.

Puntos de dolor antes de la era AI-nativa

  • Cambios de prompt sin eval. Los prompts cambiados apresuradamente degradan la calidad; nadie lo nota hasta que un usuario se queja.
  • Ruleta de modelos. ¿Qué modelo sirvió una solicitud dada? Nadie puede decirlo; los casos de soporte tardan horas en reproducirse.
  • Despliegue y reza. Modelos desplegados a mano a Azure AI Foundry o endpoints de OpenAI sin plan de rollback.
  • Explosiones de costo. Una cadena mal diseñada llama modelos de clase GPT cien veces por solicitud; la factura llega a fin de mes.
  • Seguridad como ocurrencia tardía. Filtros de contenido y redacción de PII agregados solo después de un incidente.
  • Linaje de entrenamiento perdido. Los artefactos de entrenamiento del mejor modelo existen solo en una laptop.
  • Prompt en código. Prompts incrustados en código de aplicación en lugar de archivos controlados por versión con revisiones.

Flujo diario AI-nativo

El ML/AI Engineer trabaja desde Visual Studio Code con GitHub Copilot y desde la terminal con Claude Code, impulsando el Eval Runner a lo largo del día.

Setup de la mañana

  1. Abre los dashboards de Azure AI Foundry y Application Insights; revisa las métricas de inferencia nocturna y eventos de safety-filter.
  2. En VS Code, ejecuta /eval-suite --since=yesterday para ver cualquier regresión de eval en prompts o modelos mergeados.
  3. Triage PRs que cambien prompts o routing; el Eval Runner ha pre-publicado diffs de /prompt-regression.
  4. Confirma la cola de experimentos de Azure Machine Learning desde la pista de entrenamiento.
  5. Sincroniza con el Data Engineer en datasets de features nuevos o cambiados alimentando el entrenamiento.

Ejecución al mediodía

  1. Para cada cambio de feature, ejecuta /eval-suite contra el modelo o prompt propuesto; rechaza el PR si la puntuación cae por debajo del umbral.
  2. Para cambios de routing, invoca /model-route para generar o actualizar la configuración de routing con la razón de la decisión.
  3. Implementa ejecuciones de entrenamiento a través de /foundry-deploy --stage=experiment; los resultados se registran en Azure Machine Learning.
  4. Mantén prompts en prompts/*.prompt.md con instrucciones con alcance; sin prompts inline en código de aplicación.

Revisión al final de la tarde

  1. Despliega modelos aprobados vía /foundry-deploy --stage=prod. Azure AI Foundry recibe un despliegue versionado con metadatos de rollback.
  2. Vigila la siguiente hora de telemetría de Application Insights para anomalías; revierte automáticamente si se activan guardrails.
  3. Revisa telemetría de costo por tenant; abre issues para outliers.

Primitivas recomendadas

Agente

AgenteArchivoPropósito
eval-runner.github/agents/eval-runner.agent.mdEjecuta suites de eval, regresiones de prompts, actualizaciones de routing, despliegues de Foundry

Slash prompts

ComandoArchivoPropósito
/eval-suite.github/prompts/eval-suite.prompt.mdEjecuta la suite de evaluación y publica informes puntuados
/model-route.github/prompts/model-route.prompt.mdActualiza y valida la configuración de routing de modelos
/prompt-regression.github/prompts/prompt-regression.prompt.mdEjecuta pruebas de regresión contra prompts cambiados
/foundry-deploy.github/prompts/foundry-deploy.prompt.mdPrepara o promociona un modelo o agente en Azure AI Foundry con metadatos de rollback

Instrucciones con alcance

Alcance (applyTo)ArchivoPropósito
prompts/**/*.prompt.md.github/instructions/prompts.instructions.mdEstructura de prompt, encabezado de versión, bloque de seguridad, referencia de eval
evals/**/*.yaml.github/instructions/evals.instructions.mdEstructura de dataset de eval, definiciones de métricas, umbrales
foundry/**/*.bicep.github/instructions/foundry.instructions.mdPlantillas de despliegue de Azure AI Foundry, identidad, rollback
aml/**/*.py.github/instructions/aml.instructions.mdScaffolding de experimentos de Azure Machine Learning

Hooks

  • pre-commit: lint prompts, verifica encabezados de metadatos requeridos, redacta secretos
  • pre-push: ejecuta subset de eval en prompts y modelos cambiados
  • post-merge: ejecuta suite de eval completa y publica el dashboard
  • pre-deploy: ejecuta metadatos de rollback y gates de política de Foundry
  • post-deploy: vigila Application Insights por 60 minutos; rollback automático en anomalía

MCPs validados

MCPPropósitoDueño
GitHub MCP ServerPRs, ejecuciones de Actions, comentarios en informes de evalGitHub
Azure MCP ServerOperar Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application InsightsMicrosoft
Microsoft Learn Docs MCPBusca orientación actual sobre patrones de Foundry, OpenAI y AMLMicrosoft
Azure DevOps MCP ServerRastrea experimentos de ML como work items cuando el equipo usa Azure DevOpsMicrosoft
Playwright MCPEvaluación end-to-end de features de IA incrustadas en UIs webMicrosoft

Ejemplos reales

Escenario A: validar un cambio de prompt

Un Product Owner solicita un tono más amigable en un asistente de soporte. Un PR edita prompts/support-assistant.prompt.md. El hook pre-push ejecuta /prompt-regression; el Eval Runner califica el cambio contra la suite de eval versionada. Dos métricas de utilidad suben, pero una métrica de groundedness cae por debajo del umbral. El PR se bloquea; el ML/AI Engineer agrega una restricción al prompt; la siguiente ejecución pasa y el PR se fusiona.

Escenario B: actualización segura de modelo

Una nueva versión de un modelo de clase GPT está disponible en Azure OpenAI. El ML/AI Engineer abre un PR modificando la configuración de routing vía /model-route. /eval-suite se ejecuta contra un dataset retenido; los presupuestos de costo y latencia se respetan; las activaciones de safety-filter permanecen dentro de tolerancia. /foundry-deploy --stage=prod despliega; el monitoreo post-despliegue por 60 minutos confirma sin regresión. La versión antigua permanece activa por 24 horas para rollback.

Escenario C: cerrando el loop de telemetría

Application Insights muestra un pico en menciones de entidades alucinadas para un tenant específico. El ML/AI Engineer invoca /eval-suite --from=prod-telemetry --tenant=acme; el Eval Runner construye un nuevo slice de eval desde casos recientes, lo ejecuta contra dos prompts candidatos, y recomienda el ganador. Un PR aterroriza el cambio con el nuevo slice de eval añadido a la suite de regresión permanentemente.

Anti-patrones

  • Prompts en código de aplicación. Los prompts inline no pueden ser revisados como cambios; mantenlos en prompts/*.
  • Evals opcionales. Cada prompt o modelo dirigido a producción tiene al menos un dataset de eval con umbrales.
  • Routing construido a mano. El routing como una serie de sentencias if en código no es revisable; mantenlo en una configuración declarativa.
  • Despliegues sin rollback. Cada despliegue de Foundry se envía con metadatos habilitando rollback de un clic.
  • Entrenamiento en una laptop. Usa Azure Machine Learning; los experimentos deben ser reproducibles desde la definición del job.
  • Filtros de seguridad pernados. La seguridad de contenido es parte de la pipeline desde el inicio, no una respuesta a incidente.
  • Evals que nunca cambian. Los datasets de eval se pudren; agrega casos reales de producción regularmente vía telemetry loops.

KPIs y métricas de impacto

MétricaBaseline (manual)Objetivo (agéntico)Fuente
Regresiones de prompt enviadas a prod4 por trimestre0Historial de Eval Runner
Cobertura de eval en prompts de producción30 por ciento100 por cientoEscaneo de repo
Tiempo desde lanzamiento de modelo a despliegue de prod evaluado2 semanas< 2 díasGitHub + Azure AI Foundry
Violaciones de safety-filter por 1M solicitudesSin medir< 10Application Insights
Costo por 1K solicitudes (p50)DriftDentro del 10 por ciento del presupuestoDatos de costo de Azure
Tiempo de rollback después de anomalía de despliegueHoras< 5 minutosAzure AI Foundry
Experimentos reproducibles desde Git40 por ciento100 por cientoJobs de Azure Machine Learning

Madurez en cuatro niveles

  • L1 Manual: Prompts en código, evals en notebooks, despliegues por clics de consola, sin configuración de routing.
  • L2 Asistido: Copilot redacta prompts y código de entrenamiento, evals en un notebook, configuración de modelo único.
  • L3 Aumentado: Agente Eval Runner, cuatro slash prompts, instrucciones con alcance, despliegues de Foundry desde GitHub Actions.
  • L4 Autónomo: Cambios de prompt y routing validados por evals, telemetría alimentando el próximo eval automáticamente, rollback en anomalía dentro de cinco minutos.

Integración con otras personas

  • Del Data Engineer: datasets de features curados en Microsoft Fabric con linaje documentado.
  • Del Software Architect: decisiones de topología de IA (qué tier llama qué modelo) y presupuestos de latencia.
  • Para el Developer: archivos de prompt y configuración de routing consumidos del repo; sin prompts inline.
  • Con InfoSec Officer: modelo de amenaza de IA, configuración de content-safety, políticas de redacción de PII.
  • Con SRE: monitoreo de producción, automatización de rollback, telemetría de costo.
  • Para el Product Owner: dashboards de eval e informes de regresión durante revisión de lanzamiento.
  • Con Compliance Auditor: model cards, procedencia de entrenamiento, evidencia de filtro de seguridad.

Glosario

  • Suite de eval: un conjunto versionado de datasets, métricas, y umbrales utilizados para calificar un modelo o prompt.
  • Prompt regression: una comparación de puntuaciones de eval antes y después de un cambio de prompt.
  • Routing: el mapeo declarativo desde contexto de solicitud a modelo, versión, y parámetros.
  • Despliegue de Foundry: un lanzamiento versionado de un modelo o agente en Azure AI Foundry con metadatos de rollback.
  • Groundedness: una métrica que describe qué fielmente la respuesta de un modelo refleja su contexto recuperado.
  • Safety filter: un componente de content-safety de Azure que bloquea o marca salidas no permitidas.
  • Telemetry loop: el proceso de convertir señales de producción en nuevos casos de eval.

Referencias