Снежинка спонсировала этот пост.
Ставки для предприятий выше, чем когда-либо, чтобы доказать, что их инвестиции в агенты ИИ действительно обеспечивают возврат инвестиций (ROI). Поскольку исследования показывают, что большинство агентов ИИ не способны обеспечить измеримую ценность бизнеса или ускорить рост доходов, руководители предприятий вынуждены убедиться, что их инициативы в области агентного ИИ окупаются.
Поскольку эти инвестиции уже сделаны, руководители теперь задаются другим набором вопросов: действительно ли эти агенты оказывают влияние и можно ли им доверять в управлении критически важными рабочими процессами корпоративного уровня? Здесь в игру вступают методы оценки.
Основным препятствием на пути к доверию является знание пути агента к ответу. Ответ агента может показаться успешным, но путь, по которому он пришел, может оказаться ошибочным. Без понимания этих шагов предприятия рискуют развернуть агенты, которые могут показаться надежными, но создают скрытые затраты в производстве. Неточности могут напрасно расходовать вычислительные ресурсы, увеличивать задержки и приводить к неправильным бизнес-решениям — все это подрывает доверие в масштабе.
К сожалению, нынешние методы оценки часто не оправдывают ожиданий, часто оценивая только окончательный ответ, упуская из виду процесс принятия решений агентом. Такая узкая ориентация упускает из виду истинную сквозную производительность агента, что приводит к тому, что компании принимают удовлетворительный ответ, не понимая полностью или не имея возможности исправить основные точки сбоя в рабочем процессе.
Агент GPA Framework
Чтобы решить проблему отсутствия доверия к агентам, предприятия должны принять систему систематической оценки, основанную на трех измерениях, которые обеспечивают отслеживание агентов и предотвращают галлюцинации: цель, план и действие (GPA).
Эта трехчастная модель предназначена для разделения работы агента на три этапа между командами, а также для выявления внутренних ошибок, таких как галлюцинации, неправильное использование инструментов или пропущенные шаги плана. Это позволяет предприятиям оценивать эффективность на каждом этапе процесса рассуждения агента, отражая не только конечный результат, но и точный путь, пройденный для его достижения:
- Цель: Достиг ли конечный результат агента поставленной цели? Это измеряет точность, актуальность для пользователя и проверяемость по исходным данным.
- План: Разработал ли агент и следовал ли ему разумная стратегия, выбирая подходящие ресурсы для каждого шага? Это оценивает стратегические намерения агента.
- Действие: Были ли внешние инструменты или службы, с которыми взаимодействовал агент, выполнены эффективно и результативно? Это измеряет практическое выполнение агентом внешних функций, таких как данные, веб-поиск, извлечение текста и многое другое.
Применяя эти рекомендации на всех трех этапах, предприятия могут создавать надежные и готовые к использованию ИИ-агенты. Это позволяет командам не просто выявлять сбои, но и точно определять момент возникновения ошибки для быстрого исправления.
Цель: Бизнес-результат
На этапе достижения цели рассматривается наиболее важный вопрос для руководителей бизнеса и конечных пользователей: добился ли агент успеха и можно ли доверять результату? На этом этапе эти группы должны рассмотреть:
- Правильность и актуальность ответа: Соответствует ли окончательный ответ потребностям пользователя и установленной истине?
- Заземленность: Подтвержден ли окончательный ответ агента данными из ранее полученного контекста?
Например, агент календаря может отвечать за планирование встречи руководителя на пятницу. Агент проверяет календарь руководителя и предлагает провести встречу в пятницу в 7 утра, поскольку других открытых часов он не видит, даже несмотря на то, что у руководителя есть электронная почта и документированная политика компании, согласно которой никакие встречи не запланированы до 9 утра. Когда руководящая группа или руководитель видит, что агент не связывает внешний источник (историю электронной почты и политику компании) с задачей, он может сделать вывод, что логика агента неверна. Это подтверждает, что агент должен основывать свою логику на всех поддающихся проверке данных, чтобы гарантировать, что его результат практичен и правилен, а не просто технически возможен.
В подобных ситуациях, когда результаты работы агента не обоснованы или если его рассуждения противоречат сами себе, пользователь должен немедленно сообщить об этом руководящим техническим группам, чтобы подтвердить, дает ли агент поддающиеся проверке, значимые бизнес-результаты, которым бизнес действительно может доверять.
План: Стратегическое намерение
На этапе планирования технические группы, которые развертывают агентов, такие как инженеры по искусственному интеллекту или команды по продуктам, проверяют свою стратегию и внутренний дизайн перед началом работы. Вместо того, чтобы оценивать конечный результат работы агента, эти команды сосредотачиваются на эффективности и логике алгоритмов. Этот этап важен для снижения риска будущего развертывания и включает в себя оценку техническими группами:
- Качество плана: Разработал ли агент эффективный и оптимизированный план действий для достижения цели?
- Выбор ресурса: Выбрал ли агент правильные внутренние инструменты или функции для каждой подзадачи?
- Логическая последовательность: Являются ли шаги агента последовательными и обоснованными в предшествующем контексте?
Для сложной работы, такой как анализ рыночных тенденций, агент должен сначала определить географические рынки и часовые пояса, а затем выбрать соответствующие внутренние источники и аналитические модели для поиска и прогнозирования данных. Наконец, необходимо структурировать результаты в четком формате сравнительного отчета. На этапе планирования технические команды отслеживают, правильно ли агент разбивает задачу на более мелкие проблемы и сопоставляет правильные внутренние данные с каждым шагом. Эти команды также следят за тем, чтобы агент следовал плану, выполняя шаги в правильном порядке.
Тщательный план означает, что у агента есть лучшая стратегия, что приводит к меньшему количеству ошибок из-за плохой подготовки.
Действие: эффективность исполнения
На этапе действий оценивается фактическая работа агента и использование ресурсов, связывая первоначальную стратегию с конкретными измеримыми данными о производительности. Эти данные являются ключевыми для команд DevOps и контроля затрат на платформу. Технические группы, развернувшие агент, должны использовать этот этап, чтобы получить детальное представление о том, где снижается производительность и сколько вычислительной мощности используется. Вопросы, которые следует учитывать, должны включать:
- Соблюдение плана: Выполнил ли агент свой план? Пропущенные, переупорядоченные или повторяющиеся шаги часто сигнализируют об ошибках в рассуждениях или выполнении.
- Вызов инструмента: Являются ли внутренние вызовы функций агента действительными, полными и с правильными параметрами?
- Эффективность исполнения: Достиг ли агент цели без лишних шагов? Это фиксирует избыточность и лишние вызовы ресурсов и обеспечивает оптимальное управление ресурсами.
Например, команды, которые задействовали торгового агента, могут наблюдать, если агент трижды извлекал и просматривал список потенциальных клиентов для одного и того же сегмента рынка, ненужно удваивая стоимость запроса к базе данных и время обработки, вместо того, чтобы использовать простой фильтр по инструменту дохода для более эффективного получения одного и того же ответа. Команды развертывания должны наблюдать за действиями, выбранными агентом, и вносить исправления, чтобы расставить приоритеты в области эффективности и экономии средств.
Отслеживая этап действий, технические группы могут определить, где производительность снижается. Это позволяет агенту работать максимально эффективно, одновременно управляя расходами и скоростью вычислений, что жизненно важно для корпоративного ИИ.
От спекулятивных инвестиций к проверяемой рентабельности инвестиций
Используя этот структурированный подход, состоящий из трех частей, корпоративные команды во всем бизнесе могут лучше управлять своим ИИ, смещая акцент с простого принятия ответа, который дает вам ИИ-агент, на проверку всего процесса. Делая рассуждения агента прозрачными на уровне целей, планов и действий, организации могут перестать гадать, где происходят сбои, и точно определить точный источник ошибки.
Такая степень прослеживаемости заключается не только в улавливании галлюцинаций; это основополагающая философия масштабирования корпоративного ИИ от разрозненных экспериментов до критически важных систем, приносящих доход.
Использование этой концепции превращает ИИ из спекулятивных инвестиций в надежный, проверяемый механизм экспоненциальной окупаемости инвестиций.
Snowflake позволяет каждой организации мобилизовать свои данные с помощью облака данных Snowflake. Клиенты используют облако данных для объединения разрозненных данных, обнаружения и безопасного обмена данными, обеспечения работы приложений обработки данных и выполнения разнообразных задач искусственного интеллекта/ML и аналитических рабочих нагрузок в различных облаках и географических регионах. Узнайте больше Последние новости Snowflake ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Анупам Датта — ведущий научный сотрудник и руководитель исследовательской группы Snowflake AI. Он присоединился к Snowflake в рамках приобретения TruEra, где он был соучредителем, президентом и главным научным сотрудником с 2019 по 2024 год. Датта преподавал в… Читать далее от Анупама Датты