SRE
SLOs, incidentes, postmortems.
O SRE é a persona que mantém a produção honesta. Em um SDLC AI-nativo, o SRE opera uma pilha de primitivas validadas, não uma parede de dashboards.
Resumo executivo
O SRE é dono da confiabilidade em produção: objetivos de nível de serviço, resposta a incidentes, operações de plantão, redução de toil e postmortems. Em um SDLC AI-nativo, o SRE opera dentro da fase de Operação com um conjunto fixo de primitivas: um agente de incidente, quatro slash prompts, instruções com escopo, hooks validados por schema e uma lista curada de MCPs validados. SLOs são definidos no Azure Monitor, comunicação de incidentes flui através do Microsoft Teams via o M365 Agents SDK, e postmortems vivem como markdown versionado no GitHub. As saídas primárias são definições de SLO, briefs de incidente, documentos de postmortem e propostas de redução de toil.
Papel e responsabilidades
Pense no SRE como um médico plantonista de noite em um hospital. Ele não construiu o hospital, nem projetou os tratamentos, mas quando um paciente entra em crise ele lidera a sala: triagem, estabilização, diagnóstico, documentação e alimentação dos aprendizados no protocolo. A medida de um plantonista não é o heroísmo em uma única noite; é a taxa com que a mesma crise para de acontecer. Em um SDLC AI-nativo, o hospital é o patrimônio de produção, o paciente é o SLO, e o protocolo é a biblioteca de runbooks respaldada por primitivas agênticas.
Responsabilidades primárias:
- Definir e manter SLOs e error budgets em workbooks do Azure Monitor
- Liderar resposta a incidentes: triagem, mitigação, comunicação, recuperação
- Coordenar plantão via Microsoft Teams com o bot de incidente respaldado pelo M365 Agents SDK
- Redigir postmortems no GitHub e conduzir os action items até o fechamento
- Reduzir toil através de automação de runbooks e enforcement de hooks
- Parceria com o DevOps Engineer e o Release Manager em segurança de deploy
- Operar o agente Incident Captain e os prompts
/slo-review,/incident-brief,/postmortem-draft,/toil-scan
Jobs to be done
- Como SRE, eu quero SLOs revisados mensalmente com burn de error budget, para que confiabilidade seja um orçamento, não um humor.
- Como SRE, eu quero um brief de incidente redigido nos primeiros 5 minutos, para que os respondentes trabalhem a partir do mesmo entendimento.
- Como SRE, eu quero postmortems redigidos a partir de telemetria de incidente, para que o documento se escreva sozinho enquanto humanos focam em action items.
- Como SRE, eu quero toil escaneado continuamente, para que trabalho manual repetitivo seja convertido em código, não absorvido.
- Como SRE, eu quero runbooks executáveis a partir do bot de incidente no Teams, para que mitigação seja uma conversa, não uma caça na wiki.
- Como SRE, eu quero que a mesma classe de incidente nunca seja entregue duas vezes, para que o backlog de action items seja curto e fechado.
Dores antes do AI-nativo
- SLOs como slogans. Todo serviço alega 99,9 por cento; ninguém computa o burn. O primeiro outage real expõe a mentira.
- Caos de incidentes. Os primeiros 15 minutos são “quem está vendo o quê?” Fatos são coletados no Slack, perdidos quando a thread rola.
- Postmortems atrasados e rasos. Escritos duas semanas depois, assinados sem action items, arquivados em uma pasta que ninguém lê.
- Toil invisível. Engenheiros queimam tardes reiniciando pods e rotacionando certificados. Ninguém mede; ninguém orça contra isso.
- Runbooks apodrecidos. O runbook estava correto três arquiteturas atrás. Respondentes o ignoram e improvisam.
Fluxo diário AI-nativo
O SRE opera um loop fixo cada dia. O loop usa primitivas do GitHub Copilot dentro do Visual Studio Code e Claude Code no terminal, mais um pequeno catálogo de MCPs validados para contexto externo.
Setup da manhã
- Abra o repo de confiabilidade no Visual Studio Code. GitHub Copilot Chat carrega
AGENTS.mde as instruções com escopo.github/instructions/reliability.instructions.md. - No Claude Code, rode o briefing diário de confiabilidade que consulta o Azure MCP para as últimas 24 horas de burn de SLO, alertas do Azure Monitor e anomalias do Application Insights.
- Revise o backlog de incidentes abertos e envelhecimento de action items no GitHub Projects.
- Confirme a escala de plantão do dia no Microsoft Teams.
Execução no meio do dia
Cada ciclo do meio do dia é uma melhoria de confiabilidade única ou simulação de incidente planejada, tipicamente 2 a 3 horas de trabalho focado.
- Revisão de SLO. Invoque
/slo-reviewmensalmente para recalcular error budgets, identificar serviços queimando mais rápido que o esperado e sinalizar SLOs que não são mais significativos. - Scan de toil. Invoque
/toil-scanpara ler as execuções de runbooks e intervenções manuais da sprint anterior. O agente propõe automações, priorizadas por horas economizadas. - Atualização de runbook. Edite os runbooks afetados por mudanças recentes de arquitetura; o hook pre-merge valida o schema do runbook e os dashboards linkados.
- Pull request. Abra PRs para mudanças de SLO, atualizações de runbook e automação de redução de toil. GitHub Copilot Code Review escaneia diffs.
Resposta a incidentes na tarde (quando um incidente dispara)
- Brief. Quando o Azure Monitor dispara um alerta de violação de SLO, o bot de incidente respaldado pelo M365 Agents SDK abre um canal no Teams e invoca
/incident-brief. O agente Incident Captain produz um brief de 5 minutos a partir de alertas, deploys recentes e erros do Application Insights. - Estabilizar. Respondentes seguem o runbook linkado; comandos de mitigação são executados a partir do bot de incidente com trilha de auditoria no canal do Teams.
- Comunicar. Atualizações de status são postadas no Teams em cadência (5 min para alta severidade, 15 min para média). Stakeholders leem o canal, não emails separados.
- Postmortem. Em até 48 horas da resolução, invoque
/postmortem-draftpara produzir uma timeline, fatores contribuintes e action items a partir da telemetria do incidente. O SRE edita a narrativa e atribui donos no GitHub Projects.
Primitivas recomendadas
Agentes
| Agente | Arquivo | Propósito |
|---|---|---|
incident-captain | .github/agents/incident-captain.agent.md | Liderar brief de incidente, rascunho de postmortem, revisão de SLO e scan de toil |
O agente Incident Captain usa claude-sonnet-4-6 por padrão. Detém as ferramentas read, edit, search, grep, glob, bash e bindings de MCP para Azure MCP, GitHub MCP e Microsoft 365 Agents SDK MCP. Extended thinking é habilitado para raciocínio causal de postmortem.
Prompts
| Comando | Arquivo | Propósito |
|---|---|---|
/slo-review | .github/prompts/slo-review.prompt.md | Revisar burn de error budget e sinalizar SLOs que precisam de revisão |
/incident-brief | .github/prompts/incident-brief.prompt.md | Produzir um brief de incidente de 5 minutos a partir de alertas, deploys recentes e erros |
/postmortem-draft | .github/prompts/postmortem-draft.prompt.md | Redigir o postmortem a partir de telemetria do incidente, conversa e logs de execução de runbook |
/toil-scan | .github/prompts/toil-scan.prompt.md | Identificar toil da sprint anterior e propor automações priorizadas por horas economizadas |
Instruções
applyTo com escopo reduz o custo em tokens em aproximadamente 68 por cento comparado a instruções globais.
Escopo (applyTo) | Arquivo | Propósito |
|---|---|---|
slo/**/*.yaml | .github/instructions/slo.instructions.md | Schema de definição de SLO, janelas de burn rate, políticas de budget |
runbooks/**/*.md | .github/instructions/runbook.instructions.md | Formato de runbook: sintomas, verificações, mitigações, validações |
postmortems/**/*.md | .github/instructions/postmortem.instructions.md | Template de postmortem blameless, disciplina de action items |
Skills
Skills são carregadas sob demanda, então o SRE pode instalar muitas e pagar tokens só pelas que disparam.
burn-rate-reader: chama o Azure MCP para computar alertas multi-janela multi-burn-rate em SLOsaction-item-tracker: garante que cada action item de postmortem é aberto como uma issue do GitHub com dono e data-limite
Hooks
Hooks custam zero tokens de LLM. São a camada de governança mais forte.
pre-commit: validar schema YAML de SLO e front matter de runbookpre-merge: exigir issues de action items linkadas em cada postmortem mergedpost-incident: abrir o PR de rascunho de postmortem em até 48 horas, escalar se não merged em 7 dias
MCPs validados
Todo MCP abaixo está registrado no catálogo de MCPs. Não referencie nenhum MCP que não esteja no catálogo.
| MCP | Status | Uso nesta persona |
|---|---|---|
| Azure MCP Server | Oficial (Microsoft) | Consultar Azure Monitor, Application Insights, Log Analytics para burn de SLO, alertas e telemetria de incidentes |
| GitHub MCP Server | Oficial | Abrir PRs de postmortem, rastrear action items, ler histórico de deploys |
| Microsoft 365 Agents SDK MCP | Oficial (Microsoft) | Operar o bot de incidente no Teams: criação de canal, atualizações de status, trilha de auditoria de execução de runbook |
| Azure DevOps MCP Server | Oficial (Microsoft) | Ler pipelines de release e linkar incidentes a trens de release |
| Microsoft Learn Docs MCP | Oficial | Buscar orientação de confiabilidade e observabilidade do Azure ao redigir runbooks |
| Playwright MCP | Oficial (Microsoft) | Rodar probes sintéticas a partir do bot de incidente para validar a recuperação |
Exemplos reais
Cenário A: um incidente p0 dispara na latência do checkout
Entrada: Azure Monitor dispara um alerta de burn rate de 2 horas no SLO do checkout (99,9 por cento de sucesso, 300 ms p95). Application Insights mostra uma taxa de erro 4x no CheckoutController.
Invocação: O bot de incidente no Teams auto-invoca /incident-brief no disparo do alerta.
Saída esperada:
- Um canal no Teams
inc-2026-04-24-checkout-latencycriado em até 60 segundos. - Um brief de incidente postado: burn atual do SLO, últimos 3 deploys (serviço e dependência), top 5 assinaturas de erro do Application Insights, runbook linkado.
- Respondentes executam o passo de mitigação (“escalar para 2x, desligar feature flag
new-pricing-engine”) a partir do bot com trilha de auditoria. - Atualizações de status a cada 5 minutos pelos primeiros 30 minutos; incidente resolvido em 42 minutos.
Cenário B: redigir um postmortem
Entrada: O incidente do checkout do Cenário A está resolvido. O SRE invoca /postmortem-draft na manhã seguinte.
Invocação: /postmortem-draft com o ID do canal de incidente.
Saída esperada:
- Um postmortem
postmortems/2026-04-24-checkout-latency.mdcom timeline, fatores contribuintes, impacto e action items propostos. - Cinco action items abertos como issues do GitHub, cada um com dono e data-limite, agrupados por tema (observabilidade, segurança de rollout, automação de rollback).
- Um link para o trem de release relacionado e a feature flag que foi desligada durante a mitigação.
- Um PR rascunho que o SRE edita a narrativa antes de fazer merge.
Anti-padrões
- SLOs sem alertas de burn rate. SLOs definidos mas nada alerta até o budget ser totalmente consumido. Mitigação: alertas multi-janela multi-burn-rate via o skill
burn-rate-reader. - Resposta heroica a incidentes. Um engenheiro sênior nas DMs resolve cada incidente. Mitigação: bot de incidente no Teams enforça brief, canal e trilha de auditoria para cada p0 e p1.
- Postmortems arquivados, não lidos. Escritos, assinados, ignorados. Mitigação:
action-item-trackergarante que cada postmortem abre issues reais com donos e datas-limite. - Toil absorvido. Engenheiros rotacionam certificados e reiniciam pods sem logar. Mitigação:
/toil-scanlê os logs de execução de runbook e propõe automações. - Drift de runbooks. Runbooks descrevem uma arquitetura antiga. Mitigação: hook
pre-mergevalida o schema do runbook e os dashboards linkados retornam 200.
KPIs e métricas de impacto
A persona SRE é avaliada com uma mistura de métricas SRE e DORA.
| Métrica | Linha base (manual) | Meta (agêntico) | Medição |
|---|---|---|---|
| Cobertura de SLO | 30 por cento dos serviços | > 95 por cento | Serviços com SLOs definidos no Azure Monitor |
| Visibilidade do burn de error budget | Semanal | Contínua | Dashboards de burn rate por serviço |
| Latência do brief de incidente | 30 min | < 5 min | Tempo do disparo do alerta ao brief postado |
| Tempo médio de mitigação | 90 min | < 30 min | Duração do incidente no Azure Monitor |
| Tempo médio de restauração | 4 horas | < 1 hora | Recuperação completa até o SLO |
| Taxa de conclusão de postmortem | 50 por cento | > 95 por cento | Incidentes com postmortem merged em 7 dias |
| Taxa de fechamento de action items | 40 por cento | > 80 por cento | Action items fechados no trimestre |
| Percentual de toil | 50 por cento | < 25 por cento | Horas de plantão em intervenções manuais |
Maturidade em quatro níveis
| Nível | Nome | Marcadores |
|---|---|---|
| L1 | Manual | SLOs como slogans, incidentes gerenciados em threads do Slack, postmortems opcionais |
| L2 | Assistido | GitHub Copilot ajuda a redigir postmortems, alguns SLOs definidos, sem bot de incidente |
| L3 | Aumentado | Um agente Incident Captain, quatro slash prompts, instruções com escopo, MCPs do Azure e M365, bot de incidente ativo |
| L4 | Agêntico | Kit completo de primitivas, hooks enforçados, cobertura de SLO > 95 por cento, brief de incidente em < 5 min, action items fechados > 80 por cento |
Integração com outras personas
Entregas:
- Do Release Manager: trem de release, tiers de risco, plano de rollback, relatório de canário
- Do DevOps Engineer: artefato deployado, dashboards, regras de alerta
- Para o Developer: achados de incidente e action items como issues com passos de reprodução
- Para o Platform Architect: resultados do scan de toil alimentam o roadmap da matriz de capacidades
- Para o InfoSec Officer: incidentes classificados como segurança são co-owned, com postmortem conjunto
Glossário
- Agente: um papel de LLM configurado com ferramentas, instruções e um shape de saída definido.
- Prompt: um slash command reutilizável que invoca um agente com uma tarefa específica.
- Instruções: orientação com escopo aplicada por pattern match em paths de arquivo via
applyTo. - Skill: capacidade carregada sob demanda que ativa por match de palavra-chave.
- Hook: regra de zero tokens enforçada em um evento específico de ciclo de vida.
- MCP: servidor Model Context Protocol que expõe sistemas externos ao agente.
- SLO: Service Level Objective, o alvo de confiabilidade (ex.: 99,9 por cento de sucesso a 300 ms p95).
- Error budget: a indisponibilidade permitida derivada do SLO (ex.: 0,1 por cento em 28 dias).
- Burn rate: a taxa com que o error budget está sendo consumido; alertado em multi-janela multi-burn-rate.
- Toil: trabalho operacional manual, repetitivo e automatizável que escala linearmente com o crescimento do serviço.
- Postmortem: um documento blameless capturando timeline, fatores contribuintes, impacto e action items.
Referências
- Google SRE Book — referência canônica para SLOs, error budgets e toil
- Documentação do Azure Monitor — alertas, workbooks e dashboards de SLO
- Documentação do Application Insights — distributed tracing e detecção de anomalias
- Referência KQL do Log Analytics — linguagem de consulta para investigação de incidentes
- Microsoft 365 Agents SDK — integração do bot de incidente com Teams
- Documentação do GitHub Projects — rastreamento e envelhecimento de action items
- Pesquisa DORA — fundações de tempo médio de restauração e taxa de falha de mudança