Opérations pilotées par agents : concevoir un funnel d'automatisation observable - Toolsify AI Blog

Notre équipe a exécuté 14 000 tâches d'agent le mois dernier. Parmi elles, 11 200 se sont terminées avec succès, 1 900 ont échoué complètement et 900 ont nécessité une intervention humaine en cours de flux. Avant de construire une observabilité correcte dans nos opérations d'agent, nous ne connaissions que les 1 900 échecs durs. Les échecs partiels silencieux — des tâches terminées mais ayant produit des résultats erronés ou dégradés — étaient invisibles.

Les opérations d'agent ne sont pas des opérations logicielles traditionnelles. Une tâche d'agent peut réussir partiellement, réussir de manière inattendue, ou produire une sortie qui semble correcte mais contient des erreurs subtiles.

Le funnel d'opérations d'agent : cinq étapes

Étape 1 : Réception des tâches. Nous filtrons environ 8% des tâches entrantes car elles dépassent le périmètre de capacités de l'agent.

Étape 2 : Planification et décomposition. Les plans de plus de 10 étapes n'ont que 62% de taux de succès, contre 94% pour les plans de moins de 5 étapes.

Étape 3 : Exécution. L'agent exécute chaque étape.

Étape 4 : Validation et portail qualité. La sortie est vérifiée avant livraison.

Étape 5 : Livraison et feedback. La sortie atteint l'utilisateur.

Détection des schémas d'échec

Dégradation silencieuse est le schéma le plus difficile à détecter. Quand le taux de succès de l'agent baisse de 91% à 84% en deux semaines. Nous le détectons avec une métrique de taux de succès roulante sur 7 jours.

Échecs spécifiques à un outil se regroupent par dépendance externe. Quand notre serveur MCP Jira a eu une fenêtre de réponse dégradée, le taux de complétion des workflows dépendants de Jira est passé de 88% à 61%.

Dérive de complexité de plan est subtile. Après la mise à niveau de GPT-4 Turbo à GPT-4o, la longueur moyenne du plan est passée de 4,2 à 5,8 étapes.

Boucle d'optimisation human-in-the-loop

Environ 12% de nos tâches atteignent des opérateurs humains. Nous distinguons trois types : Type 1 : lacunes de capacité (40%). Type 2 : échecs transitoires (35%). Type 3 : tâches ambiguës (25%).

Stratégies d'optimisation qui fonctionnent vraiment

Routage basé sur la confiance. Les tâches simples vont à GPT-4o-mini, les complexes à GPT-4o. Économie : 45% des coûts LLM.

Checkpoint et reprise. Pour les tâches longues, nous sauvegardons l'état intermédiaire toutes les 3 étapes. Temps de récupération moyen réduit de 45 à 12 secondes.

A/B testing des prompts d'agent. Testés hebdomadairement contre 200 tâches représentatives.

Resserrement de la boucle de feedback. Temps entre le feedback utilisateur et le fine-tuning du modèle réduit de 30 à 7 jours.

Les opérations d'agent ne feront qu'augmenter en importance à mesure que les agents IA gèrent des workflows de plus en plus complexes. Les équipes qui investissent dans une observabilité correcte maintenant auront un avantage opérationnel significatif.