Operações orientadas por agentes: projetando um funil de automação observável - Toolsify AI Blog

Nossa equipe executou 14.000 tarefas de agente no mês passado. Dessas, 11.200 foram concluídas com sucesso, 1.900 falharam completamente e 900 necessitaram de intervenção humana no meio do fluxo. Antes de construir observabilidade adequada em nossas operações de agente, só conhecíamos as 1.900 falhas duras. As falhas parciais silenciosas — tarefas que foram concluídas mas produziram resultados errados ou degradados — eram invisíveis.

Operações de agente não são operações de software tradicionais. Uma tarefa de agente pode ter sucesso parcial, sucesso de formas inesperadas, ou produzir output que parece correto mas contém erros sutis.

O funil de operações de agente: cinco estágios

Estágio 1: Recebimento de tarefas. Filtramos aproximadamente 8% das tarefas entrantes porque estão fora do escopo de capacidades do agente.

Estágio 2: Planejamento e decomposição. Planos com mais de 10 passos têm apenas 62% de taxa de sucesso, comparado com 94% para planos com menos de 5 passos.

Estágio 3: Execução. O agente executa cada passo.

Estágio 4: Validação e portão de qualidade. O output é verificado antes da entrega.

Estágio 5: Entrega e feedback. O output chega ao usuário.

Detectando padrões de falha

Degradação silenciosa é o padrão mais difícil de detectar. Quando a taxa de sucesso do agente cai de 91% para 84% em duas semanas. Detectamos isso com uma métrica de taxa de sucesso móvel de 7 dias.

Falhas específicas por ferramenta se agrupam por dependência externa. Quando nosso servidor MCP do Jira teve uma janela de resposta degradada, a taxa de conclusão para workflows dependentes do Jira caiu de 88% para 61%.

Deriva de complexidade do plano é sutil. Após atualizar de GPT-4 Turbo para GPT-4o, o comprimento médio do plano aumentou de 4,2 para 5,8 passos.

Loop de otimização human-in-the-loop

Aproximadamente 12% de nossas tarefas chegam a operadores humanos. Distinguimos três tipos: Tipo 1: lacunas de capacidade (40%). Tipo 2: falhas transitórias (35%). Tipo 3: tarefas ambíguas (25%).

Estratégias de otimização que realmente funcionam

Roteamento baseado em confiança. Tarefas simples vão para GPT-4o-mini, complexas para GPT-4o. Economia: 45% nos custos de LLM.

Checkpoint e retomada. Para tarefas longas, salvamos estado intermediário a cada 3 passos. Tempo médio de recuperação reduzido de 45 para 12 segundos.

A/B testing de prompts do agente. Variações testadas semanalmente contra 200 tarefas representativas.

Aperto do loop de feedback. Tempo entre feedback do usuário e fine-tuning do modelo reduzido de 30 para 7 dias.

Operações de agente serão cada vez mais importantes à medida que agentes IA lidem com workflows cada vez mais complexos. As equipes que investirem em observabilidade adequada agora terão uma vantagem operacional significativa.