Операции на базе агентов: проектирование наблюдаемой воронки автоматизации
Наша команда выполнила 14 000 задач агента в прошлом месяце. Из них 11 200 завершились успешно, 1 900 провалились полностью, 900 потребовали вмешательства человека по ходу выполнения. До того как мы построили нормальную наблюдаемость в наших агентских операциях, мы знали только о 1 900 жёстких отказах. Тихие частичные отказы — задачи, которые завершились, но выдали неверные или деградированные результаты — были невидимы.
Операции агентов — это не традиционные операции с ПО. Задача агента может частично выполниться, выполниться неожиданным способом или выдать результат, который выглядит правильным, но содержит тонкие ошибки.
Воронка операций агента: пять этапов
Этап 1: Приём задач. Мы фильтруем примерно 8% входящих задач на этом этапе — они вне области возможностей агента.
Этап 2: Планирование и декомпозиция. Планы длиннее 10 шагов имеют лишь 62% успешности, против 94% для планов короче 5 шагов.
Этап 3: Исполнение. Агент выполняет каждый шаг.
Этап 4: Валидация и quality gate. Выход проверяется перед доставкой.
Этап 5: Доставка и фидбэк. Результат доходит до пользователя.
Обнаружение паттернов ошибок
Тихая деградация — самый сложный для поимки паттерн. Когда частота успеха агента падает с 91% до 84% за две недели. Мы ловим это скользящей 7-дневной метрикой успешности.
Ошибки, специфичные для инструментов кластеризуются по внешней зависимости. Когда наш Jira MCP-сервер имел окно деградированного ответа, частота завершения Jira-зависимых воркфлоу упала с 88% до 61%.
Дрейф сложности планов незаметен. После обновления с GPT-4 Turbo до GPT-4o средняя длина плана выросла с 4,2 до 5,8 шагов.
Цикл оптимизации human-in-the-loop
Около 12% задач доходят до операторов-людей. Три типа: Тип 1: пробелы в возможностях (40%). Тип 2: транзиентные ошибки (35%). Тип 3: неоднозначные задачи (25%).
Оптимизационные стратегии, которые реально работают
Роутинг на основе уверенности. Простые задачи идут на GPT-4o-mini, сложные на GPT-4o. Экономия: 45% LLM-расходов.
Чекпоинт и возобновление. Для длинных задач сохраняем промежуточное состояние каждые 3 шага. Среднее время восстановления снижено с 45 до 12 секунд.
A/B-тестирование промптов агента. Вариации тестируются еженедельно против 200 репрезентативных задач.
Уплотнение фидбэк-лупа. Время между пользовательским фидбэком и дообучением модели сокращено с 30 до 7 дней.
Операции агентов будут только расти в важности по мере того, как AI-агенты берут на себя всё более сложные воркфлоу. Команды, которые инвестируют в нормальную наблюдаемость сейчас, получат значительное операционное преимущество. Начинайте просто, но планируйте полный пайплайн. Он понадобится вам раньше, чем вы думаете.