Engenheiro de ML e IA
Treino e avaliação de modelos.
O ML AI Engineer é a persona que leva modelos e features alimentadas por LLM do protótipo à produção. Em um SDLC AI-nativo, o ML AI Engineer opera um agente Eval Runner, quatro slash prompts e um catálogo validado de MCPs centrado em Azure AI Foundry, Azure OpenAI e Azure Machine Learning — não uma pilha de notebooks ad-hoc.
Resumo executivo
O ML AI Engineer é responsável pela confiabilidade do comportamento de IA: qualidade do modelo, estabilidade de prompts, decisões de roteamento e topologia de deploy. Em um SDLC AI-nativo, o papel é operacionalizado através de um único agente Eval Runner, quatro slash prompts, instruções com escopo e MCPs validados alcançando Azure AI Foundry, Azure OpenAI, Azure Machine Learning e Microsoft Learn Docs MCP.
As entregas primárias são suítes de avaliação versionadas, configurações de roteamento de modelo com decisões rastreáveis, dashboards de regressão de prompts e artefatos de deploy do Foundry com planos de rollback. O ML AI Engineer fecha o loop da mudança de modelo à telemetria de produção: nenhum modelo é entregue sem um baseline de avaliação, e nenhuma regressão sobrevive à noite.
Comportamento de IA é comportamento de software. Evals são testes, prompts são código, roteamento é configuração e deploys são PRs. O ML AI Engineer faz a camada de IA obedecer a mesma governança que todos os outros sistemas em produção.
Papel e responsabilidades
Pense no ML AI Engineer como um engenheiro de processos farmacêuticos. O químico inventa o composto; o engenheiro de processos garante que cada lote atende à monografia, com testes em cada etapa. Em um SDLC AI-nativo, o ML AI Engineer transforma trabalho exploratório de modelos em comportamento de produção repetível e auditável.
Responsabilidades primárias:
- Manter a suíte de avaliação: datasets, métricas, regressões por feature
- Operar o roteamento de modelos (qual modelo, qual versão, qual tenant) no Azure AI Foundry
- Rastrear mudanças de prompt com testes de regressão e relatórios de diff
- Deployar modelos e agentes no Azure AI Foundry com artefatos prontos para rollback
- Treinar e fazer fine-tune de modelos no Azure Machine Learning com experimentos versionados
- Integrar sistemas de segurança (filtros de conteúdo, sensibilidade do Purview) no pipeline de modelos
- Operar o agente Eval Runner e os prompts
/eval-suite,/model-route,/prompt-regression,/foundry-deploy - Colaborar com o Data Engineer em datasets de features e com o InfoSec Officer em modelos de ameaça para IA
Jobs to be done
- Como ML AI Engineer, eu quero cada mudança de prompt bloqueada por um teste de regressão, para que a qualidade não degrade silenciosamente.
- Como ML AI Engineer, eu quero suítes de avaliação versionadas com o modelo, para que eu consiga reproduzir qualquer baseline passado sob demanda.
- Como ML AI Engineer, eu quero deploys seguros em produção via Azure AI Foundry com rollback em um clique, para que incidentes não deixem usuários abandonados.
- Como ML AI Engineer, eu quero que o roteamento de modelos seja código, não conhecimento tribal, para que cada decisão de roteamento seja revisável.
- Como ML AI Engineer, eu quero filtros de segurança integrados e testados, para que violações de segurança de conteúdo sejam capturadas no CI.
- Como ML AI Engineer, eu quero experimentos de treino logados no Azure Machine Learning, para que a reprodutibilidade seja automática.
- Como ML AI Engineer, eu quero sinais do Application Insights de modelos deployados alimentando a próxima avaliação, para que o loop se feche sozinho.
- Como ML AI Engineer, eu quero orçamentos de custo e latência enforçados por modelo e por tenant, para que inferência descontrolada seja impossível.
Dores antes do AI-nativo
- Mudanças de prompt sem avaliação. Prompts alterados às pressas regridem qualidade; ninguém percebe até um usuário reclamar.
- Roleta de modelos. Qual modelo serviu um dado request? Ninguém consegue dizer; casos de suporte levam horas para reproduzir.
- Deploy e reze. Modelos deployados manualmente no Azure AI Foundry ou endpoints do OpenAI sem plano de rollback.
- Explosões de custo. Uma chain mal projetada chama modelos de classe GPT cem vezes por request; a conta chega no final do mês.
- Segurança como última hora. Filtros de conteúdo e redação de PII adicionados apenas após um incidente.
- Linhagem de treino perdida. Os artefatos de treino do melhor modelo existem apenas em um laptop.
- Prompt no código. Prompts embutidos no código da aplicação em vez de arquivos versionados com revisão.
Fluxo diário AI-nativo
O ML AI Engineer trabalha a partir do Visual Studio Code com GitHub Copilot e do terminal com Claude Code, conduzindo o Eval Runner ao longo do dia.
Setup da manhã
- Abra os dashboards do Azure AI Foundry e Application Insights; revise métricas de inferência noturnas e eventos de filtro de segurança.
- No VS Code, rode
/eval-suite --since=yesterdaypara ver quaisquer regressões de avaliação em prompts ou modelos merged. - Triar PRs que mudam prompts ou roteamento; o Eval Runner já postou diffs de
/prompt-regression. - Confirme a fila de experimentos do Azure Machine Learning do track de treino.
- Sincronize com o Data Engineer sobre datasets de features novos ou alterados alimentando o treino.
Execução no meio do dia
- Para cada mudança de feature, rode
/eval-suitecontra o modelo ou prompt proposto; falhe o PR se o score cair abaixo do limiar. - Para mudanças de roteamento, invoque
/model-routepara gerar ou atualizar a configuração de roteamento com justificativa de decisão. - Implemente execuções de treino através de
/foundry-deploy --stage=experiment; resultados são logados no Azure Machine Learning. - Mantenha prompts em
prompts/*.prompt.mdcom instruções com escopo; nenhum prompt inline no código da aplicação.
Revisão no fim da tarde
- Deploye modelos aprovados via
/foundry-deploy --stage=prod. O Azure AI Foundry recebe um deploy versionado com metadados de rollback. - Monitore a próxima hora de telemetria do Application Insights para anomalias; faça rollback automaticamente se os guardrails dispararem.
- Revise telemetria de custo por tenant; abra issues para outliers.
Primitivas recomendadas
Agente
| Agente | Arquivo | Propósito |
|---|---|---|
eval-runner | .github/agents/eval-runner.agent.md | Roda suítes de avaliação, regressões de prompt, atualizações de roteamento, deploys no Foundry |
Slash prompts
| Comando | Arquivo | Propósito |
|---|---|---|
/eval-suite | .github/prompts/eval-suite.prompt.md | Rodar a suíte de avaliação e publicar relatórios com scores |
/model-route | .github/prompts/model-route.prompt.md | Atualizar e validar a configuração de roteamento de modelos |
/prompt-regression | .github/prompts/prompt-regression.prompt.md | Rodar testes de regressão contra prompts alterados |
/foundry-deploy | .github/prompts/foundry-deploy.prompt.md | Promover ou fazer stage de um modelo ou agente no Azure AI Foundry com metadados de rollback |
Instruções com escopo
Escopo (applyTo) | Arquivo | Propósito |
|---|---|---|
prompts/**/*.prompt.md | .github/instructions/prompts.instructions.md | Estrutura de prompt, cabeçalho de versão, bloco de segurança, referência de avaliação |
evals/**/*.yaml | .github/instructions/evals.instructions.md | Estrutura de dataset de avaliação, definições de métricas, limiares |
foundry/**/*.bicep | .github/instructions/foundry.instructions.md | Templates de deploy do Azure AI Foundry, identidade, rollback |
aml/**/*.py | .github/instructions/aml.instructions.md | Scaffolding de experimentos do Azure Machine Learning |
Hooks
pre-commit: lint de prompts, verificação de cabeçalhos de metadados obrigatórios, redação de segredospre-push: rodar subconjunto de avaliação em prompts e modelos alteradospost-merge: rodar suíte de avaliação completa e publicar o dashboardpre-deploy: enforçar metadados de rollback e gates de política do Foundrypost-deploy: monitorar Application Insights por 60 minutos; rollback automático em anomalia
MCPs validados
| MCP | Propósito | Dono |
|---|---|---|
| GitHub MCP Server | PRs, execuções do Actions, comentários de relatório de avaliação | GitHub |
| Azure MCP Server | Operar Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application Insights | Microsoft |
| Microsoft Learn Docs MCP | Consultar orientação atualizada sobre padrões de Foundry, OpenAI e AML | Microsoft |
| Azure DevOps MCP Server | Rastrear experimentos de ML como work items quando o time usa Azure DevOps | Microsoft |
| Playwright MCP | Avaliação ponta a ponta de features de IA embutidas em UIs web | Microsoft |
Exemplos reais
Exemplo 1: bloqueando uma mudança de prompt
Um Product Owner solicita um tom mais amigável em um assistente de suporte. Um PR edita prompts/support-assistant.prompt.md. O hook pre-push roda /prompt-regression; o Eval Runner pontua a mudança contra a suíte de avaliação versionada. Duas métricas de utilidade sobem, mas uma métrica de fundamentação cai abaixo do limiar. O PR é bloqueado; o ML AI Engineer adiciona uma restrição ao prompt; a próxima execução passa e o PR faz merge.
Exemplo 2: upgrade seguro de modelo
Uma nova versão de modelo de classe GPT fica disponível no Azure OpenAI. O ML AI Engineer abre um PR modificando a configuração de roteamento via /model-route. /eval-suite roda contra um dataset retido; orçamentos de custo e latência são respeitados; ativações de filtro de segurança ficam dentro da tolerância. /foundry-deploy --stage=prod deploya; monitoramento pós-deploy por 60 minutos confirma que não há regressão. A versão antiga permanece quente por 24 horas para rollback.
Exemplo 3: fechando o loop de telemetria
Application Insights mostra um pico em menções de entidades alucinadas para um tenant específico. O ML AI Engineer invoca /eval-suite --from=prod-telemetry --tenant=acme; o Eval Runner constrói uma nova fatia de avaliação a partir de casos recentes, roda contra dois prompts candidatos e recomenda o vencedor. Um PR aterrissa a mudança com a nova fatia de avaliação adicionada à suíte de regressão permanentemente.
Anti-padrões
- Prompts no código da aplicação. Prompts inline não podem ser revisados como mudanças; mantenha-os em
prompts/*. - Evals opcionais. Todo prompt ou modelo voltado para produção tem pelo menos um dataset de avaliação com limiares.
- Roteamento artesanal. Roteamento como uma série de if-statements no código é irrevisável; mantenha-o em uma configuração declarativa.
- Deploys sem rollback. Todo deploy no Foundry é entregue com metadados habilitando rollback em um clique.
- Treino em laptop. Use Azure Machine Learning; experimentos devem ser reproduzíveis a partir da definição do job.
- Filtros de segurança adicionados depois. Segurança de conteúdo faz parte do pipeline desde o início, não é uma resposta a incidentes.
- Evals que nunca mudam. Datasets de avaliação envelhecem; adicione casos reais de produção regularmente via loops de telemetria.
KPIs e métricas de impacto
| Métrica | Linha base (manual) | Meta (agêntico) | Fonte |
|---|---|---|---|
| Regressões de prompt entregues em produção | 4 por trimestre | 0 | Histórico do Eval Runner |
| Cobertura de avaliação em prompts de produção | 30 por cento | 100 por cento | Scan do repo |
| Tempo do release de modelo ao deploy avaliado em produção | 2 semanas | < 2 dias | GitHub + Azure AI Foundry |
| Violações de filtro de segurança por 1M de requests | Não medido | < 10 | Application Insights |
| Custo por 1K requests (p50) | Deriva | Dentro de 10 por cento do orçamento | Dados de custo Azure |
| Tempo de rollback após anomalia de deploy | Horas | < 5 minutos | Azure AI Foundry |
| Experimentos reproduzíveis a partir do Git | 40 por cento | 100 por cento | Jobs do Azure Machine Learning |
Maturidade em quatro níveis
- L1 Manual: Prompts no código, evals em notebooks, deploys por cliques no console, sem configuração de roteamento.
- L2 Assistido: Copilot redige prompts e código de treino, evals em notebook, setup de modelo único.
- L3 Aumentado: Agente Eval Runner, quatro slash prompts, instruções com escopo, deploys no Foundry a partir do GitHub Actions.
- L4 Autônomo: Mudanças de prompt e roteamento bloqueadas por evals, telemetria alimentando a próxima avaliação automaticamente, rollback em anomalia dentro de cinco minutos.
Integração com outras personas
- Do Data Engineer: datasets de features curados no Microsoft Fabric com linhagem documentada.
- Do Software Architect: decisões de topologia de IA (qual tier chama qual modelo) e orçamentos de latência.
- Para o Developer: arquivos de prompt e configuração de roteamento consumidos do repositório; sem prompts inline.
- Com o InfoSec Officer: modelo de ameaça de IA, configuração de segurança de conteúdo, políticas de redação de PII.
- Com o SRE: monitoramento de produção, automação de rollback, telemetria de custo.
- Para o Product Owner: dashboards de avaliação e relatórios de regressão durante a revisão de release.
- Com o Compliance Auditor: model cards, proveniência de treino, evidência de filtros de segurança.
Glossário
- Suíte de avaliação: um conjunto versionado de datasets, métricas e limiares usado para pontuar um modelo ou prompt.
- Regressão de prompt: uma comparação de scores de avaliação antes e depois de uma mudança de prompt.
- Roteamento: o mapeamento declarativo de contexto de request para modelo, versão e parâmetros.
- Deploy no Foundry: um release versionado de um modelo ou agente no Azure AI Foundry com metadados de rollback.
- Fundamentação: uma métrica que descreve quão fielmente a resposta de um modelo reflete seu contexto recuperado.
- Filtro de segurança: um componente de segurança de conteúdo do Azure que bloqueia ou sinaliza saídas não permitidas.
- Loop de telemetria: o processo de transformar sinais de produção em novos casos de avaliação.
Referências
- Documentação do Azure AI Foundry — agentes, modelos, avaliações
- Azure OpenAI Service — modelos OpenAI via Azure
- Azure Machine Learning — treino e rastreamento de experimentos
- Azure AI Content Safety — filtragem de segurança
- Application Insights para apps de LLM — telemetria de produção
- GitHub Copilot e agentes — integração no workflow do desenvolvedor
- Microsoft Purview para governança de dados de IA — classificação de sensibilidade de dados de treino
- GitHub Actions — orquestração de CI e deploy em todo o stack
- Microsoft Learn Docs MCP — recuperação de documentação first-party no momento da implementação
- GitHub Advanced Security — CodeQL, Dependabot, Secret Scanning, Push Protection