Избегание налога на надежность агента AI: Руководство разработчика

Разработчики Salesforce спонсировали этот пост.

Интерес к генеративному ИИ (Genai) переходит от разработки моделей к созданию агентов, которые автономно выполняют широкий спектр задач. Но проблемы ожидают, что они высвобождают возможности агентского ИИ без твердой сцепления на сквозную надежность.

«Ненадежные агенты не просто неэффективны; они представляют собой значительный источник оперативного, финансового, юридического и репутационного риска», — сказал мне в интервью Моит Шривастава, главный застройщик в Salesforce. «Поскольку агент, развернутый в масштабе, надежность становится центральным архитектурным принципом».

Избегание агента AI «налог на надежность»

Ненадежный агент вводит гораздо больше, чем просто неэффективность. Это ответственность, которая может вызвать операционные сбои, юридическое воздействие и репутационный ущерб. Шривастава называет это «налогом на надежность».

Слишком многие из сегодняшних заявлений ИИ и агентских развертываний ИИ являются хрупкими, непоследовательными и постоянными спросом. Следовательно, организации сталкиваются с постоянными инвестициями в ограждения, поисковые трубопроводы, мониторинг, управление и упрочнение безопасности, чтобы исправить непредвиденные проблемы ИИ и предотвратить неточности и галлюцинации.

«Мы перешли от детерминированной автоматизации — когда система выполняет предварительно запрограммированные правила — к вероятностной автономии, где агенты воспринимают, разум и действуют самостоятельно», — сказал Шривастава. «Это приносит невероятный потенциал, но также представляет совершенно новые режимы отказа».

5 столпов агентского успеха ИИ

Он подчеркивает, что надежность является многомерным элементом, состоящим из пяти столбов:

Предсказуемость: Последовательные действия в определенных границах.
Верность: Точность, основанная на проверенных источниках.
Управляемость: Следуют явным инструкциям и ограничениям.
Надежность: Устойчивость в грязных или состязательных условиях.
Безопасность и безопасность: Избегая вреда и сопротивления злонамеренной эксплуатации.

Многие дизайнеры преуспевают в некоторых из этих столбов. Но каждый важен. Если кто -то терпит неудачу, каскадные сбои неизбежны.

Предотвращение ползучесть и галлюцинации

Приверженность к принципам надежности должна быть сбалансирована с необходимостью избежать ползучести. Shrivastava рекомендует начинать с стратегического определения объема, прежде чем построить. Это определение может быть обеспечено:

Zero Trust Identity и контроль доступа
Использование инструментов
Человеческие контрольные точки
Регистрация и мониторинг
Аварийные переключатели убийства

Галлюцинация может быть рассмотрена с помощью таких методов, как поколение поиска (RAG), не требуя модели переподготовки. Это помогает уменьшить количество галлюцинации, будь то с точки зрения ошибок верности (противоречивого контекста) или ошибок фактической деятельности (противоречивая реальность).

Выход за рамки быстрого инженера

Обратные инженерные методы, такие как цепочка мыслей или самосогласованность, предназначены для обеспечения того, чтобы агенты следовали командам. Однако для истинной инструкции разработчики должны принять контекстную инженерию. Подобно тому, как быстрое проектирование выходит далеко за рамки простых подсказок, тщательно рассмотрив контекст и структуру, контекстно -инженерная архитектора с полным контекстом, используя строгий итеративный подход, который оптимизирует инструкции, чтобы обеспечить их достижение желаемого результата.

«Контекстная инженерия — это искусство и наука о предоставлении агенту ИИ правильную информацию, правильные инструменты и правильные инструкции, так что агент способен достичь данной цели. Подумайте о контексте как о выполнении« ОЗУ »агента — подсказки, инструкции, полученные данные и историю», — сказал Шривастава. «Перегрузить его, отравить или создавать конфликты, а надежность страдает».

Разработчикам нужны инструменты, которые они могут использовать, которые вводят контекстную инженерию на практику. Такие инструменты должны быть в состоянии определять темы, которые захватывают точные задачи, которые должны быть выполнены, чтобы агент ИИ понимал область, триггеры и желаемые результаты для каждого сценария. Эти темы обеспечивают структуру, когда и как агент должен действовать, гарантируя, что ответы остаются актуальными и соответствующими бизнес -целям.

Оттуда, добавленная вирастава, агенты должны быть оснащены эффективными инструментами для достижения данной цели. Затем память может эффективно управляться путем суммирования текущих разговоров и повторного использования этого контекста с помощью быстрых шаблонов, переменных разговора или переменных контекста. В результате, усердная подсказка инженера может уточнить поведение агента в рамках тем, инструкции и областей, и поиск через RAG может динамически привлекать соответствующие данные для предоставления точных, контекстных ответов, сохраняя при этом оптимизированное окно контекста.

«Предприятия нуждается в платформе, которая предоставляет все инструменты для выполнения многих аспектов контекстной инженерии таким образом, чтобы это было просто управлять», — сказал Шривастава. «Это должно включать встроенные ограждения и управление, которые оценивают, насколько хорошо агенты интерпретируют тематические инструкции при генерации ответов».

При всех этих шагах остается критическим, что производительность агента тщательно контролируется и измерима. Следовательно, инструменты разработчика должны обеспечивать глубокую наблюдение, мониторинг живого здоровья, отслеживание потребления и богатую аналитику усыновления для поддержки валидации и устойчивого улучшения результатов. Например, сервисные агенты, настроенные с AgentForce от Salesforce, имеют функцию, чтобы сообщить о проценте разрешенных разговоров, эскалаций и заброшенных разговоров. Аналогичным образом, агенты по продажам, которые выходят из коробки с агентством, имели аналитику, чтобы сообщить, как агент влияет на доходы от продаж.

Правильная платформа и правильные инструменты = надежность

Для Enterprise Agentic AI надежность больше не является дополнительной функцией. Это стало фундаментальной частью любой архитектуры. Этот сдвиг необходим, потому что агенты в настоящее время работают на вероятностной автономии, а не на детерминированных сценариях.

Достижение надежности агента требует дисциплинированного, сквозного подхода, который выходит за рамки простого использования модели. Согласно Шриваставе, это включает в себя:

Контекст инженерия: Тщательно определяя масштаб, действия, память, память, подсказки и использование тряпки.

Тяжелое управление: Внедрение строгих элементов управления, таких как безопасность Zero Trust, утвержденные списки действий (разрешенные списки), человеческий надзор (человеческий в петле или HITL) и всеобъемлющее ведение журнала.

Непрерывная оценка: Постоянно мониторинг и тестирование производительности агента в реальных сценариях.

«Организации должны планировать постоянную стоимость поддержания ограждений, трубопроводов данных, тестирования и наблюдения», — сказал Шривастава. «Платформы, которые предоставляют встроенные инструменты для оценки, тряпичной аналитики и аналитики производительности, могут помочь снизить эту стоимость и обеспечить разработку более продвинутых, самокорректирующихся систем ИИ».

AgentForce из Salesforce имеет встроенные инструменты, чтобы помочь предприятиям развернуть агентов в масштабе. Например, центр тестирования Agentforce позволяет командам провести сценарию, основанные на наборах данных, основанные на наборах данных (включая синтетические тестовые примеры) в песочнице перед выступлением. Таким образом, они могут выявить неспособность следовать инструкциям и ошибкам использования инструментов на раннем этапе-сокращение налога на надежность. AgentForce предоставляет все инструменты, необходимые для реализации автономных агентов искусственного интеллекта в масштабе при добавлении ограждений, управления и контроля, приведенных в предпринимательских операциях.

Для получения дополнительной информации посетите AgentForce.

Salesforce помогает организациям переосмыслить свой бизнес с ИИ. AgentForce, первое цифровое трудовое решение для предприятий, плавно интегрируется с приложениями Customer 360, Data Cloud и Einstein AI, чтобы создать безграничную рабочую силу, объединяя людей и агентов для достижения успеха клиентов. Узнайте больше новейших от разработчиков Salesforce, в тренде истории YouTube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Дрю Робб работал на постоянном писателе более 25 лет. Он специализируется на этом, инженерии и бизнеса. Он написал сотни статей для нового стека, DataMation, Eweek, Tech Republic, Power Magazine, World Trade и More …. Подробнее от Дрю Робба

Разработка сайтов в Гомеле

Добавить комментарий Отменить ответ

Похожие записи

Антигравитация — новая платформа агентной разработки Google

Почему все ненавидят ваши DevOps Stack

Ubuntu 25.10 отказывается от X11 для Wayland: уверенный шаг вперед

Tobiko запускает свой облачный сервис на основе SQLMESH в GA

OpenAI восстанавливает 30 000 ядер процессора с помощью настройки Fluent Bit

ServiceNow запускает контрольную башню для агентов искусственного интеллекта

Являются ли Edge Computing и Cloud Computing в конкуренции?

Kubernetes получает программу соответствия ИИ — и VMware уже в ней

Что делает Gnome таким привлекательным?

Фильтр Valkey Bloom обнаруживает мошенничество (не ломая банк)

Укрощение LLM разрастание: зачем предприятиям нужны AI Gateway сейчас

Использовать kubernetes затраты с Opencost

Вам тоже может быть интересно:

Opera объявляет о новой агентской функции для своего браузера

Meta имеет соглашения о распределении доходов с хостами Model Llama AI, заявив

Республиканский конгрессмен Джим Джордан спрашивает Big Tech, если Байден попытается подвергнуть цензуре AI

Копилот Microsoft теперь может просматривать Интернет и выполнять действия для вас

Openai, как сообщается, скоро закроет раунд с софтбанком 40 миллиардов долларов

DEV создал тест, чтобы увидеть, как AI Chatbots реагируют на спорные темы

Google заменяет Google Assistant на Gemini

Правительство США налагает требования к лицензии на экспорт NVIDIA H20

Amazon закрывает звонок, его альтернатива Zoom Alternative

Legal Ai-Startup Liginance, поддержанный покойным Майком Линчами, собирает 75 миллионов долларов

Неделя обзора: SXSW Week подходит к концу

Внутри стартапа EV тайно поддержан Джеффом Безосом