Операции на базе агентов: проектирование наблюдаемой воронки автоматизации - Toolsify AI Blog

Наша команда выполнила 14 000 задач агента в прошлом месяце. Из них 11 200 завершились успешно, 1 900 провалились полностью, 900 потребовали вмешательства человека по ходу выполнения. До того как мы построили нормальную наблюдаемость в наших агентских операциях, мы знали только о 1 900 жёстких отказах. Тихие частичные отказы — задачи, которые завершились, но выдали неверные или деградированные результаты — были невидимы.

Операции агентов — это не традиционные операции с ПО. Задача агента может частично выполниться, выполниться неожиданным способом или выдать результат, который выглядит правильным, но содержит тонкие ошибки.

Воронка операций агента: пять этапов

Этап 1: Приём задач. Мы фильтруем примерно 8% входящих задач на этом этапе — они вне области возможностей агента.

Этап 2: Планирование и декомпозиция. Планы длиннее 10 шагов имеют лишь 62% успешности, против 94% для планов короче 5 шагов.

Этап 3: Исполнение. Агент выполняет каждый шаг.

Этап 4: Валидация и quality gate. Выход проверяется перед доставкой.

Этап 5: Доставка и фидбэк. Результат доходит до пользователя.

Обнаружение паттернов ошибок

Тихая деградация — самый сложный для поимки паттерн. Когда частота успеха агента падает с 91% до 84% за две недели. Мы ловим это скользящей 7-дневной метрикой успешности.

Ошибки, специфичные для инструментов кластеризуются по внешней зависимости. Когда наш Jira MCP-сервер имел окно деградированного ответа, частота завершения Jira-зависимых воркфлоу упала с 88% до 61%.

Дрейф сложности планов незаметен. После обновления с GPT-4 Turbo до GPT-4o средняя длина плана выросла с 4,2 до 5,8 шагов.

Цикл оптимизации human-in-the-loop

Около 12% задач доходят до операторов-людей. Три типа: Тип 1: пробелы в возможностях (40%). Тип 2: транзиентные ошибки (35%). Тип 3: неоднозначные задачи (25%).

Оптимизационные стратегии, которые реально работают

Роутинг на основе уверенности. Простые задачи идут на GPT-4o-mini, сложные на GPT-4o. Экономия: 45% LLM-расходов.

Чекпоинт и возобновление. Для длинных задач сохраняем промежуточное состояние каждые 3 шага. Среднее время восстановления снижено с 45 до 12 секунд.

A/B-тестирование промптов агента. Вариации тестируются еженедельно против 200 репрезентативных задач.

Уплотнение фидбэк-лупа. Время между пользовательским фидбэком и дообучением модели сокращено с 30 до 7 дней.

Операции агентов будут только расти в важности по мере того, как AI-агенты берут на себя всё более сложные воркфлоу. Команды, которые инвестируют в нормальную наблюдаемость сейчас, получат значительное операционное преимущество. Начинайте просто, но планируйте полный пайплайн. Он понадобится вам раньше, чем вы думаете.