16 data · Implementation

Engenheiro de ML e IA

Treino e avaliação de modelos.

Atualizado: 2026-04-24 14 seções Baixar .zip

O ML AI Engineer é a persona que leva modelos e features alimentadas por LLM do protótipo à produção. Em um SDLC AI-nativo, o ML AI Engineer opera um agente Eval Runner, quatro slash prompts e um catálogo validado de MCPs centrado em Azure AI Foundry, Azure OpenAI e Azure Machine Learning — não uma pilha de notebooks ad-hoc.

Resumo executivo

O ML AI Engineer é responsável pela confiabilidade do comportamento de IA: qualidade do modelo, estabilidade de prompts, decisões de roteamento e topologia de deploy. Em um SDLC AI-nativo, o papel é operacionalizado através de um único agente Eval Runner, quatro slash prompts, instruções com escopo e MCPs validados alcançando Azure AI Foundry, Azure OpenAI, Azure Machine Learning e Microsoft Learn Docs MCP.

As entregas primárias são suítes de avaliação versionadas, configurações de roteamento de modelo com decisões rastreáveis, dashboards de regressão de prompts e artefatos de deploy do Foundry com planos de rollback. O ML AI Engineer fecha o loop da mudança de modelo à telemetria de produção: nenhum modelo é entregue sem um baseline de avaliação, e nenhuma regressão sobrevive à noite.

Comportamento de IA é comportamento de software. Evals são testes, prompts são código, roteamento é configuração e deploys são PRs. O ML AI Engineer faz a camada de IA obedecer a mesma governança que todos os outros sistemas em produção.

Papel e responsabilidades

Pense no ML AI Engineer como um engenheiro de processos farmacêuticos. O químico inventa o composto; o engenheiro de processos garante que cada lote atende à monografia, com testes em cada etapa. Em um SDLC AI-nativo, o ML AI Engineer transforma trabalho exploratório de modelos em comportamento de produção repetível e auditável.

Responsabilidades primárias:

  • Manter a suíte de avaliação: datasets, métricas, regressões por feature
  • Operar o roteamento de modelos (qual modelo, qual versão, qual tenant) no Azure AI Foundry
  • Rastrear mudanças de prompt com testes de regressão e relatórios de diff
  • Deployar modelos e agentes no Azure AI Foundry com artefatos prontos para rollback
  • Treinar e fazer fine-tune de modelos no Azure Machine Learning com experimentos versionados
  • Integrar sistemas de segurança (filtros de conteúdo, sensibilidade do Purview) no pipeline de modelos
  • Operar o agente Eval Runner e os prompts /eval-suite, /model-route, /prompt-regression, /foundry-deploy
  • Colaborar com o Data Engineer em datasets de features e com o InfoSec Officer em modelos de ameaça para IA

Jobs to be done

  1. Como ML AI Engineer, eu quero cada mudança de prompt bloqueada por um teste de regressão, para que a qualidade não degrade silenciosamente.
  2. Como ML AI Engineer, eu quero suítes de avaliação versionadas com o modelo, para que eu consiga reproduzir qualquer baseline passado sob demanda.
  3. Como ML AI Engineer, eu quero deploys seguros em produção via Azure AI Foundry com rollback em um clique, para que incidentes não deixem usuários abandonados.
  4. Como ML AI Engineer, eu quero que o roteamento de modelos seja código, não conhecimento tribal, para que cada decisão de roteamento seja revisável.
  5. Como ML AI Engineer, eu quero filtros de segurança integrados e testados, para que violações de segurança de conteúdo sejam capturadas no CI.
  6. Como ML AI Engineer, eu quero experimentos de treino logados no Azure Machine Learning, para que a reprodutibilidade seja automática.
  7. Como ML AI Engineer, eu quero sinais do Application Insights de modelos deployados alimentando a próxima avaliação, para que o loop se feche sozinho.
  8. Como ML AI Engineer, eu quero orçamentos de custo e latência enforçados por modelo e por tenant, para que inferência descontrolada seja impossível.

Dores antes do AI-nativo

  • Mudanças de prompt sem avaliação. Prompts alterados às pressas regridem qualidade; ninguém percebe até um usuário reclamar.
  • Roleta de modelos. Qual modelo serviu um dado request? Ninguém consegue dizer; casos de suporte levam horas para reproduzir.
  • Deploy e reze. Modelos deployados manualmente no Azure AI Foundry ou endpoints do OpenAI sem plano de rollback.
  • Explosões de custo. Uma chain mal projetada chama modelos de classe GPT cem vezes por request; a conta chega no final do mês.
  • Segurança como última hora. Filtros de conteúdo e redação de PII adicionados apenas após um incidente.
  • Linhagem de treino perdida. Os artefatos de treino do melhor modelo existem apenas em um laptop.
  • Prompt no código. Prompts embutidos no código da aplicação em vez de arquivos versionados com revisão.

Fluxo diário AI-nativo

O ML AI Engineer trabalha a partir do Visual Studio Code com GitHub Copilot e do terminal com Claude Code, conduzindo o Eval Runner ao longo do dia.

Setup da manhã

  1. Abra os dashboards do Azure AI Foundry e Application Insights; revise métricas de inferência noturnas e eventos de filtro de segurança.
  2. No VS Code, rode /eval-suite --since=yesterday para ver quaisquer regressões de avaliação em prompts ou modelos merged.
  3. Triar PRs que mudam prompts ou roteamento; o Eval Runner já postou diffs de /prompt-regression.
  4. Confirme a fila de experimentos do Azure Machine Learning do track de treino.
  5. Sincronize com o Data Engineer sobre datasets de features novos ou alterados alimentando o treino.

Execução no meio do dia

  1. Para cada mudança de feature, rode /eval-suite contra o modelo ou prompt proposto; falhe o PR se o score cair abaixo do limiar.
  2. Para mudanças de roteamento, invoque /model-route para gerar ou atualizar a configuração de roteamento com justificativa de decisão.
  3. Implemente execuções de treino através de /foundry-deploy --stage=experiment; resultados são logados no Azure Machine Learning.
  4. Mantenha prompts em prompts/*.prompt.md com instruções com escopo; nenhum prompt inline no código da aplicação.

Revisão no fim da tarde

  1. Deploye modelos aprovados via /foundry-deploy --stage=prod. O Azure AI Foundry recebe um deploy versionado com metadados de rollback.
  2. Monitore a próxima hora de telemetria do Application Insights para anomalias; faça rollback automaticamente se os guardrails dispararem.
  3. Revise telemetria de custo por tenant; abra issues para outliers.

Primitivas recomendadas

Agente

AgenteArquivoPropósito
eval-runner.github/agents/eval-runner.agent.mdRoda suítes de avaliação, regressões de prompt, atualizações de roteamento, deploys no Foundry

Slash prompts

ComandoArquivoPropósito
/eval-suite.github/prompts/eval-suite.prompt.mdRodar a suíte de avaliação e publicar relatórios com scores
/model-route.github/prompts/model-route.prompt.mdAtualizar e validar a configuração de roteamento de modelos
/prompt-regression.github/prompts/prompt-regression.prompt.mdRodar testes de regressão contra prompts alterados
/foundry-deploy.github/prompts/foundry-deploy.prompt.mdPromover ou fazer stage de um modelo ou agente no Azure AI Foundry com metadados de rollback

Instruções com escopo

Escopo (applyTo)ArquivoPropósito
prompts/**/*.prompt.md.github/instructions/prompts.instructions.mdEstrutura de prompt, cabeçalho de versão, bloco de segurança, referência de avaliação
evals/**/*.yaml.github/instructions/evals.instructions.mdEstrutura de dataset de avaliação, definições de métricas, limiares
foundry/**/*.bicep.github/instructions/foundry.instructions.mdTemplates de deploy do Azure AI Foundry, identidade, rollback
aml/**/*.py.github/instructions/aml.instructions.mdScaffolding de experimentos do Azure Machine Learning

Hooks

  • pre-commit: lint de prompts, verificação de cabeçalhos de metadados obrigatórios, redação de segredos
  • pre-push: rodar subconjunto de avaliação em prompts e modelos alterados
  • post-merge: rodar suíte de avaliação completa e publicar o dashboard
  • pre-deploy: enforçar metadados de rollback e gates de política do Foundry
  • post-deploy: monitorar Application Insights por 60 minutos; rollback automático em anomalia

MCPs validados

MCPPropósitoDono
GitHub MCP ServerPRs, execuções do Actions, comentários de relatório de avaliaçãoGitHub
Azure MCP ServerOperar Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application InsightsMicrosoft
Microsoft Learn Docs MCPConsultar orientação atualizada sobre padrões de Foundry, OpenAI e AMLMicrosoft
Azure DevOps MCP ServerRastrear experimentos de ML como work items quando o time usa Azure DevOpsMicrosoft
Playwright MCPAvaliação ponta a ponta de features de IA embutidas em UIs webMicrosoft

Exemplos reais

Exemplo 1: bloqueando uma mudança de prompt

Um Product Owner solicita um tom mais amigável em um assistente de suporte. Um PR edita prompts/support-assistant.prompt.md. O hook pre-push roda /prompt-regression; o Eval Runner pontua a mudança contra a suíte de avaliação versionada. Duas métricas de utilidade sobem, mas uma métrica de fundamentação cai abaixo do limiar. O PR é bloqueado; o ML AI Engineer adiciona uma restrição ao prompt; a próxima execução passa e o PR faz merge.

Exemplo 2: upgrade seguro de modelo

Uma nova versão de modelo de classe GPT fica disponível no Azure OpenAI. O ML AI Engineer abre um PR modificando a configuração de roteamento via /model-route. /eval-suite roda contra um dataset retido; orçamentos de custo e latência são respeitados; ativações de filtro de segurança ficam dentro da tolerância. /foundry-deploy --stage=prod deploya; monitoramento pós-deploy por 60 minutos confirma que não há regressão. A versão antiga permanece quente por 24 horas para rollback.

Exemplo 3: fechando o loop de telemetria

Application Insights mostra um pico em menções de entidades alucinadas para um tenant específico. O ML AI Engineer invoca /eval-suite --from=prod-telemetry --tenant=acme; o Eval Runner constrói uma nova fatia de avaliação a partir de casos recentes, roda contra dois prompts candidatos e recomenda o vencedor. Um PR aterrissa a mudança com a nova fatia de avaliação adicionada à suíte de regressão permanentemente.

Anti-padrões

  • Prompts no código da aplicação. Prompts inline não podem ser revisados como mudanças; mantenha-os em prompts/*.
  • Evals opcionais. Todo prompt ou modelo voltado para produção tem pelo menos um dataset de avaliação com limiares.
  • Roteamento artesanal. Roteamento como uma série de if-statements no código é irrevisável; mantenha-o em uma configuração declarativa.
  • Deploys sem rollback. Todo deploy no Foundry é entregue com metadados habilitando rollback em um clique.
  • Treino em laptop. Use Azure Machine Learning; experimentos devem ser reproduzíveis a partir da definição do job.
  • Filtros de segurança adicionados depois. Segurança de conteúdo faz parte do pipeline desde o início, não é uma resposta a incidentes.
  • Evals que nunca mudam. Datasets de avaliação envelhecem; adicione casos reais de produção regularmente via loops de telemetria.

KPIs e métricas de impacto

MétricaLinha base (manual)Meta (agêntico)Fonte
Regressões de prompt entregues em produção4 por trimestre0Histórico do Eval Runner
Cobertura de avaliação em prompts de produção30 por cento100 por centoScan do repo
Tempo do release de modelo ao deploy avaliado em produção2 semanas< 2 diasGitHub + Azure AI Foundry
Violações de filtro de segurança por 1M de requestsNão medido< 10Application Insights
Custo por 1K requests (p50)DerivaDentro de 10 por cento do orçamentoDados de custo Azure
Tempo de rollback após anomalia de deployHoras< 5 minutosAzure AI Foundry
Experimentos reproduzíveis a partir do Git40 por cento100 por centoJobs do Azure Machine Learning

Maturidade em quatro níveis

  • L1 Manual: Prompts no código, evals em notebooks, deploys por cliques no console, sem configuração de roteamento.
  • L2 Assistido: Copilot redige prompts e código de treino, evals em notebook, setup de modelo único.
  • L3 Aumentado: Agente Eval Runner, quatro slash prompts, instruções com escopo, deploys no Foundry a partir do GitHub Actions.
  • L4 Autônomo: Mudanças de prompt e roteamento bloqueadas por evals, telemetria alimentando a próxima avaliação automaticamente, rollback em anomalia dentro de cinco minutos.

Integração com outras personas

  • Do Data Engineer: datasets de features curados no Microsoft Fabric com linhagem documentada.
  • Do Software Architect: decisões de topologia de IA (qual tier chama qual modelo) e orçamentos de latência.
  • Para o Developer: arquivos de prompt e configuração de roteamento consumidos do repositório; sem prompts inline.
  • Com o InfoSec Officer: modelo de ameaça de IA, configuração de segurança de conteúdo, políticas de redação de PII.
  • Com o SRE: monitoramento de produção, automação de rollback, telemetria de custo.
  • Para o Product Owner: dashboards de avaliação e relatórios de regressão durante a revisão de release.
  • Com o Compliance Auditor: model cards, proveniência de treino, evidência de filtros de segurança.

Glossário

  • Suíte de avaliação: um conjunto versionado de datasets, métricas e limiares usado para pontuar um modelo ou prompt.
  • Regressão de prompt: uma comparação de scores de avaliação antes e depois de uma mudança de prompt.
  • Roteamento: o mapeamento declarativo de contexto de request para modelo, versão e parâmetros.
  • Deploy no Foundry: um release versionado de um modelo ou agente no Azure AI Foundry com metadados de rollback.
  • Fundamentação: uma métrica que descreve quão fielmente a resposta de um modelo reflete seu contexto recuperado.
  • Filtro de segurança: um componente de segurança de conteúdo do Azure que bloqueia ou sinaliza saídas não permitidas.
  • Loop de telemetria: o processo de transformar sinais de produção em novos casos de avaliação.

Referências