Engenheiro de ML e IA · Personas do SDLC Agêntico

O ML AI Engineer é a persona que leva modelos e features alimentadas por LLM do protótipo à produção. Em um SDLC AI-nativo, o ML AI Engineer opera um agente Eval Runner, quatro slash prompts e um catálogo validado de MCPs centrado em Azure AI Foundry, Azure OpenAI e Azure Machine Learning — não uma pilha de notebooks ad-hoc.

Resumo executivo

O ML AI Engineer é responsável pela confiabilidade do comportamento de IA: qualidade do modelo, estabilidade de prompts, decisões de roteamento e topologia de deploy. Em um SDLC AI-nativo, o papel é operacionalizado através de um único agente Eval Runner, quatro slash prompts, instruções com escopo e MCPs validados alcançando Azure AI Foundry, Azure OpenAI, Azure Machine Learning e Microsoft Learn Docs MCP.

As entregas primárias são suítes de avaliação versionadas, configurações de roteamento de modelo com decisões rastreáveis, dashboards de regressão de prompts e artefatos de deploy do Foundry com planos de rollback. O ML AI Engineer fecha o loop da mudança de modelo à telemetria de produção: nenhum modelo é entregue sem um baseline de avaliação, e nenhuma regressão sobrevive à noite.

Comportamento de IA é comportamento de software. Evals são testes, prompts são código, roteamento é configuração e deploys são PRs. O ML AI Engineer faz a camada de IA obedecer a mesma governança que todos os outros sistemas em produção.

Papel e responsabilidades

Pense no ML AI Engineer como um engenheiro de processos farmacêuticos. O químico inventa o composto; o engenheiro de processos garante que cada lote atende à monografia, com testes em cada etapa. Em um SDLC AI-nativo, o ML AI Engineer transforma trabalho exploratório de modelos em comportamento de produção repetível e auditável.

Responsabilidades primárias:

Manter a suíte de avaliação: datasets, métricas, regressões por feature
Operar o roteamento de modelos (qual modelo, qual versão, qual tenant) no Azure AI Foundry
Rastrear mudanças de prompt com testes de regressão e relatórios de diff
Deployar modelos e agentes no Azure AI Foundry com artefatos prontos para rollback
Treinar e fazer fine-tune de modelos no Azure Machine Learning com experimentos versionados
Integrar sistemas de segurança (filtros de conteúdo, sensibilidade do Purview) no pipeline de modelos
Operar o agente Eval Runner e os prompts /eval-suite, /model-route, /prompt-regression, /foundry-deploy
Colaborar com o Data Engineer em datasets de features e com o InfoSec Officer em modelos de ameaça para IA

Jobs to be done

Como ML AI Engineer, eu quero cada mudança de prompt bloqueada por um teste de regressão, para que a qualidade não degrade silenciosamente.
Como ML AI Engineer, eu quero suítes de avaliação versionadas com o modelo, para que eu consiga reproduzir qualquer baseline passado sob demanda.
Como ML AI Engineer, eu quero deploys seguros em produção via Azure AI Foundry com rollback em um clique, para que incidentes não deixem usuários abandonados.
Como ML AI Engineer, eu quero que o roteamento de modelos seja código, não conhecimento tribal, para que cada decisão de roteamento seja revisável.
Como ML AI Engineer, eu quero filtros de segurança integrados e testados, para que violações de segurança de conteúdo sejam capturadas no CI.
Como ML AI Engineer, eu quero experimentos de treino logados no Azure Machine Learning, para que a reprodutibilidade seja automática.
Como ML AI Engineer, eu quero sinais do Application Insights de modelos deployados alimentando a próxima avaliação, para que o loop se feche sozinho.
Como ML AI Engineer, eu quero orçamentos de custo e latência enforçados por modelo e por tenant, para que inferência descontrolada seja impossível.

Dores antes do AI-nativo

Mudanças de prompt sem avaliação. Prompts alterados às pressas regridem qualidade; ninguém percebe até um usuário reclamar.
Roleta de modelos. Qual modelo serviu um dado request? Ninguém consegue dizer; casos de suporte levam horas para reproduzir.
Deploy e reze. Modelos deployados manualmente no Azure AI Foundry ou endpoints do OpenAI sem plano de rollback.
Explosões de custo. Uma chain mal projetada chama modelos de classe GPT cem vezes por request; a conta chega no final do mês.
Segurança como última hora. Filtros de conteúdo e redação de PII adicionados apenas após um incidente.
Linhagem de treino perdida. Os artefatos de treino do melhor modelo existem apenas em um laptop.
Prompt no código. Prompts embutidos no código da aplicação em vez de arquivos versionados com revisão.

Fluxo diário AI-nativo

O ML AI Engineer trabalha a partir do Visual Studio Code com GitHub Copilot e do terminal com Claude Code, conduzindo o Eval Runner ao longo do dia.

Setup da manhã

Abra os dashboards do Azure AI Foundry e Application Insights; revise métricas de inferência noturnas e eventos de filtro de segurança.
No VS Code, rode /eval-suite --since=yesterday para ver quaisquer regressões de avaliação em prompts ou modelos merged.
Triar PRs que mudam prompts ou roteamento; o Eval Runner já postou diffs de /prompt-regression.
Confirme a fila de experimentos do Azure Machine Learning do track de treino.
Sincronize com o Data Engineer sobre datasets de features novos ou alterados alimentando o treino.

Execução no meio do dia

Para cada mudança de feature, rode /eval-suite contra o modelo ou prompt proposto; falhe o PR se o score cair abaixo do limiar.
Para mudanças de roteamento, invoque /model-route para gerar ou atualizar a configuração de roteamento com justificativa de decisão.
Implemente execuções de treino através de /foundry-deploy --stage=experiment; resultados são logados no Azure Machine Learning.
Mantenha prompts em prompts/*.prompt.md com instruções com escopo; nenhum prompt inline no código da aplicação.

Revisão no fim da tarde

Deploye modelos aprovados via /foundry-deploy --stage=prod. O Azure AI Foundry recebe um deploy versionado com metadados de rollback.
Monitore a próxima hora de telemetria do Application Insights para anomalias; faça rollback automaticamente se os guardrails dispararem.
Revise telemetria de custo por tenant; abra issues para outliers.

Primitivas recomendadas

Agente

Agente	Arquivo	Propósito
`eval-runner`	`.github/agents/eval-runner.agent.md`	Roda suítes de avaliação, regressões de prompt, atualizações de roteamento, deploys no Foundry

Slash prompts

Comando	Arquivo	Propósito
`/eval-suite`	`.github/prompts/eval-suite.prompt.md`	Rodar a suíte de avaliação e publicar relatórios com scores
`/model-route`	`.github/prompts/model-route.prompt.md`	Atualizar e validar a configuração de roteamento de modelos
`/prompt-regression`	`.github/prompts/prompt-regression.prompt.md`	Rodar testes de regressão contra prompts alterados
`/foundry-deploy`	`.github/prompts/foundry-deploy.prompt.md`	Promover ou fazer stage de um modelo ou agente no Azure AI Foundry com metadados de rollback

Instruções com escopo

Escopo (`applyTo`)	Arquivo	Propósito
`prompts/*/.prompt.md`	`.github/instructions/prompts.instructions.md`	Estrutura de prompt, cabeçalho de versão, bloco de segurança, referência de avaliação
`evals/*/.yaml`	`.github/instructions/evals.instructions.md`	Estrutura de dataset de avaliação, definições de métricas, limiares
`foundry/*/.bicep`	`.github/instructions/foundry.instructions.md`	Templates de deploy do Azure AI Foundry, identidade, rollback
`aml/*/.py`	`.github/instructions/aml.instructions.md`	Scaffolding de experimentos do Azure Machine Learning

Hooks

pre-commit: lint de prompts, verificação de cabeçalhos de metadados obrigatórios, redação de segredos
pre-push: rodar subconjunto de avaliação em prompts e modelos alterados
post-merge: rodar suíte de avaliação completa e publicar o dashboard
pre-deploy: enforçar metadados de rollback e gates de política do Foundry
post-deploy: monitorar Application Insights por 60 minutos; rollback automático em anomalia

MCPs validados

MCP	Propósito	Dono
GitHub MCP Server	PRs, execuções do Actions, comentários de relatório de avaliação	GitHub
Azure MCP Server	Operar Azure AI Foundry, Azure OpenAI, Azure Machine Learning, Application Insights	Microsoft
Microsoft Learn Docs MCP	Consultar orientação atualizada sobre padrões de Foundry, OpenAI e AML	Microsoft
Azure DevOps MCP Server	Rastrear experimentos de ML como work items quando o time usa Azure DevOps	Microsoft
Playwright MCP	Avaliação ponta a ponta de features de IA embutidas em UIs web	Microsoft

Exemplos reais

Exemplo 1: bloqueando uma mudança de prompt

Um Product Owner solicita um tom mais amigável em um assistente de suporte. Um PR edita prompts/support-assistant.prompt.md. O hook pre-push roda /prompt-regression; o Eval Runner pontua a mudança contra a suíte de avaliação versionada. Duas métricas de utilidade sobem, mas uma métrica de fundamentação cai abaixo do limiar. O PR é bloqueado; o ML AI Engineer adiciona uma restrição ao prompt; a próxima execução passa e o PR faz merge.

Exemplo 2: upgrade seguro de modelo

Uma nova versão de modelo de classe GPT fica disponível no Azure OpenAI. O ML AI Engineer abre um PR modificando a configuração de roteamento via /model-route. /eval-suite roda contra um dataset retido; orçamentos de custo e latência são respeitados; ativações de filtro de segurança ficam dentro da tolerância. /foundry-deploy --stage=prod deploya; monitoramento pós-deploy por 60 minutos confirma que não há regressão. A versão antiga permanece quente por 24 horas para rollback.

Exemplo 3: fechando o loop de telemetria

Application Insights mostra um pico em menções de entidades alucinadas para um tenant específico. O ML AI Engineer invoca /eval-suite --from=prod-telemetry --tenant=acme; o Eval Runner constrói uma nova fatia de avaliação a partir de casos recentes, roda contra dois prompts candidatos e recomenda o vencedor. Um PR aterrissa a mudança com a nova fatia de avaliação adicionada à suíte de regressão permanentemente.

Anti-padrões

Prompts no código da aplicação. Prompts inline não podem ser revisados como mudanças; mantenha-os em prompts/*.
Evals opcionais. Todo prompt ou modelo voltado para produção tem pelo menos um dataset de avaliação com limiares.
Roteamento artesanal. Roteamento como uma série de if-statements no código é irrevisável; mantenha-o em uma configuração declarativa.
Deploys sem rollback. Todo deploy no Foundry é entregue com metadados habilitando rollback em um clique.
Treino em laptop. Use Azure Machine Learning; experimentos devem ser reproduzíveis a partir da definição do job.
Filtros de segurança adicionados depois. Segurança de conteúdo faz parte do pipeline desde o início, não é uma resposta a incidentes.
Evals que nunca mudam. Datasets de avaliação envelhecem; adicione casos reais de produção regularmente via loops de telemetria.

KPIs e métricas de impacto

Métrica	Linha base (manual)	Meta (agêntico)	Fonte
Regressões de prompt entregues em produção	4 por trimestre	0	Histórico do Eval Runner
Cobertura de avaliação em prompts de produção	30 por cento	100 por cento	Scan do repo
Tempo do release de modelo ao deploy avaliado em produção	2 semanas	< 2 dias	GitHub + Azure AI Foundry
Violações de filtro de segurança por 1M de requests	Não medido	< 10	Application Insights
Custo por 1K requests (p50)	Deriva	Dentro de 10 por cento do orçamento	Dados de custo Azure
Tempo de rollback após anomalia de deploy	Horas	< 5 minutos	Azure AI Foundry
Experimentos reproduzíveis a partir do Git	40 por cento	100 por cento	Jobs do Azure Machine Learning

Maturidade em quatro níveis

L1 Manual: Prompts no código, evals em notebooks, deploys por cliques no console, sem configuração de roteamento.
L2 Assistido: Copilot redige prompts e código de treino, evals em notebook, setup de modelo único.
L3 Aumentado: Agente Eval Runner, quatro slash prompts, instruções com escopo, deploys no Foundry a partir do GitHub Actions.
L4 Autônomo: Mudanças de prompt e roteamento bloqueadas por evals, telemetria alimentando a próxima avaliação automaticamente, rollback em anomalia dentro de cinco minutos.

Integração com outras personas

Do Data Engineer: datasets de features curados no Microsoft Fabric com linhagem documentada.
Do Software Architect: decisões de topologia de IA (qual tier chama qual modelo) e orçamentos de latência.
Para o Developer: arquivos de prompt e configuração de roteamento consumidos do repositório; sem prompts inline.
Com o InfoSec Officer: modelo de ameaça de IA, configuração de segurança de conteúdo, políticas de redação de PII.
Com o SRE: monitoramento de produção, automação de rollback, telemetria de custo.
Para o Product Owner: dashboards de avaliação e relatórios de regressão durante a revisão de release.
Com o Compliance Auditor: model cards, proveniência de treino, evidência de filtros de segurança.

Glossário

Suíte de avaliação: um conjunto versionado de datasets, métricas e limiares usado para pontuar um modelo ou prompt.
Regressão de prompt: uma comparação de scores de avaliação antes e depois de uma mudança de prompt.
Roteamento: o mapeamento declarativo de contexto de request para modelo, versão e parâmetros.
Deploy no Foundry: um release versionado de um modelo ou agente no Azure AI Foundry com metadados de rollback.
Fundamentação: uma métrica que descreve quão fielmente a resposta de um modelo reflete seu contexto recuperado.
Filtro de segurança: um componente de segurança de conteúdo do Azure que bloqueia ou sinaliza saídas não permitidas.
Loop de telemetria: o processo de transformar sinais de produção em novos casos de avaliação.

Referências

Documentação do Azure AI Foundry — agentes, modelos, avaliações
Azure OpenAI Service — modelos OpenAI via Azure
Azure Machine Learning — treino e rastreamento de experimentos
Azure AI Content Safety — filtragem de segurança
Application Insights para apps de LLM — telemetria de produção
GitHub Copilot e agentes — integração no workflow do desenvolvedor
Microsoft Purview para governança de dados de IA — classificação de sensibilidade de dados de treino
GitHub Actions — orquestração de CI e deploy em todo o stack
Microsoft Learn Docs MCP — recuperação de documentação first-party no momento da implementação
GitHub Advanced Security — CodeQL, Dependabot, Secret Scanning, Push Protection