Эксплуатация программы Windows. автоматизация примирения счетов. Бронирование полета и отеля.
Это всего лишь несколько задач, которые новый класс крупных языковых моделей (LLMS) мог обеспечить для агентов искусственного интеллекта. Исследователи называют этот следующий этап LLMS «большими моделями действий» или LAMS.
На сегодняшний день LLM были без гражданства — неспособны действовать, адаптировать или взаимодействовать с инструментами самостоятельно. Но теперь ламмы настроены, чтобы агенты выполняли все более сложные действия и даже ориентироваться в графических пользовательских интерфейсах (GUI).
«LAM являются важнейшей точкой перегиба в эволюции систем искусственного интеллекта, переходя от пассивных респондентов к автономным операторам», — сказал новый стек Preetpal Singh, управляющий директор группы компании IT Services Company Xebia. По сути, LAMS перемещают отрасль с генеративного ИИ к агентскому ИИ.
С лампами в их основе, агенты ИИ готовы к опережению вчерашнего искусственного интеллекта. «ИИ всегда нуждался в DO-A-inerine, и LAMS-это генеративный ответ искусственного интеллекта на эту потребность»,-сказал Скотт Уилсон, руководитель отдела маркетинга продуктов, Xtype, компания ServiceNow Multi-Constance Management Platform, новая компания.
Другие согласны с тем, что лампы лежат в основе действенных агентов. «Когда вы говорите о LAMS, вы действительно говорите об агентах», — сказал новой стек Кейт Пиджановский, инженер по решению искусственного интеллекта в Minio, системе хранения объектов. «Лам — действительно мозг для агентов».
Понимание больших моделей действий
LAMS — это LLMS, обученные конкретным действиям и улучшены с реальным подключением к внешним данным и системам. Это делает агентов, которые они поддерживают более надежными, чем основные LLM, которые ограничены рассуждениями, поиском и генерацией текста.
Принимая во внимание, что LLMS более общего назначения, обучаемые на большом корпусе данных, LAMS более ориентированы на задачи. «Lams Fine-Tune LLM, чтобы специально хорошо рекомендовать действия для достижения цели»,-сказал новому стеку Джейсон Фурнье, вице-президент по инициативам искусственного интеллекта на платформе образовательной платформы Imagine Learning.
Примеры LAMS до сих пор включают в себя:
- Исследователи Microsoft разработали LAM, который выполняет задачи в офисе, по данным декодера.
- Орби недавно дебютировал с лампа для автоматизации задач предприятия.
- Cogagent — это модель с открытым исходным кодом, предназначенную для выполнения задач в графических интерфейсах.
- Университет Калифорнии-Беркели поделился Gorilla, тонкой настроенной моделью, которая расширяет извлечение дополненного поколения (RAG) со временем выполнения для выполнения действий, генерируемых LLM.
Академические исследования LAMS продолжаются, и определение их в отраслевом контексте остается сложным. Хотя именование не стандартизировано, многие проекты, описанные как «LLM с использованием инструмента» или «агентские рамки», вероятно, попадают под зонтик LAM.
Например, OpenAI недавно добавила функцию «использование компьютера» в свой API ответов, позволяя разработчикам направлять ИИ через экранные действия, такие как щелчок или прокрутка. Хотя OpenAI не использует термин LAM, это отражает более широкий всплеск инструментов, позволяющих более действенным агентам ИИ.
«Существует растущий спрос на системы, которые выходят за рамки языковой помощи и движутся в направлении интеллектуальных агентов, способных выполнять реальные действия»,-пишет исследователи Microsoft в исследовании Microsoft в реферате для исследования LAM, которое они выпустили в декабре. Другое исследование, обновленное в мае, изображает «новое поколение агентов GRA-графического графического интерфейса LLM».
Как LAMS продвигает агентов ИИ?
Традиционно, автоматизация бизнеса опиралась на автоматизацию роботизированных процессов (RPA), которая имитировала поведение пользователей, такие как клики, прокрутка или копирование текста для автоматизации повторяющихся задач. Ламс берут это дальше.
Вместо того, чтобы следить за жесткой логикой, агенты с питанием фонарей собирают информацию во время выполнения-даже данные, которые не существовали, когда рабочий процесс был впервые определен. «Это больше похоже на динамичную бизнес -логику», — сказал Пиджановский.
Уилсон видит LAMS как «намного лучше», чем RPA: «В отличие от обычной автоматизации, которая следует за жесткими, предварительно запрограммированными правилами, LAMS могут адаптироваться к изменениям в пользовательских интерфейсах и рабочих процессах». Вы также можете поговорить с ними на простом языке и позволить им обрабатывать детали реализации.
LAMS строит на тряпке, которая позволяет LLMS втягивать внешние документы. «Рэг заставила отрасль думать, что мы можем дать LLMS больше информации во время вывода», — сказал Пижановский. «Рэг была самым первым агентом, но у него был только один инструмент: перейдите в векторную базу данных и дайте мне маленькие куски документов».
LAM идет дальше — не просто получение информации или имитации действий, но и на самом деле решение задач. Это может означать выполнение многоэтажных рабочих процессов, таких как бронирование отпуска, сказал Пижановский.
Что ламс мог включить для предприятий
В обстановке предприятия Пижановский указал на управление фабрикой в качестве многообещающего случая использования. LAM может автоматизировать техническое обслуживание путем мониторинга оборудования, анализа изображений на наличие дефектов и синхронизировать с другими платформами для создания оповещений, запуска заказов или отслеживания инвентаризации.
С серверами протокола контекста модели (MCP), которые соединяют агенты искусственного интеллекта с внешними инструментами, в миксе агенты также предназначены для таких областей, как облачные DevOps. Например, Minio Aistor MCP Server позволяет LAMS автономно управлять облачными файлами и выполнять административные задачи.
LAMS, обученные внутренним действиям, также могли упростить отраслевые рабочие процессы. Представьте, что обучение, например, разработало учебную программу, информированную в учебной программе для поддержки учителей и учеников с планированием уроков на основе искусственного интеллекта. Фурнье видит перспективу в автоматизации административных задач, таких как регистрация студентов, синтезирование данных для преподавателей и улучшение опыта обучения.
Или, по словам Уилсона, рассмотрите маркетинг: «Вы можете сообщить агентской платформе искусственного интеллекта с технологией LAM:« Запустите нашу новую кампанию продукта для программного обеспечения ACME во всех наших каналах с нашей стандартной структурой обмена сообщениями ». Подобные возможности могут сэкономить время, обеспечить согласованность бренда и бесплатные команды, чтобы сосредоточиться на стратегии высокого уровня.
Сингх видит потенциал в автоматизации задач по всем финансам и законным, таким как анализ транзакций, согласование счетов, рассмотрение контрактов и обработка запросов на поддержку клиентов. «Этот тип автоматизации может снизить эксплуатационные расходы при повышении точности и скорости», — сказал он.
Короче говоря, Уилсон сказал: «LAM предлагают преобразующий потенциал для предприятий, автоматизируя сложные рабочие процессы, которые в настоящее время требуют вмешательства человека».
Поставить лампы на работу
«Ламки являются ключевым компонентом агентской экосистемы ИИ», — сказал Уилсон. «Вместо того, чтобы просто начать рабочий процесс, LAMS может определить соответствующие шаги, необходимые для достижения цели».
С агентами, выполняющими работу, команды могут пропустить строительные интеграции API. «Сила LAMS заключается в их способности взаимодействовать с существующими программными интерфейсами так же, как и люди, не требуя специализированных интеграций или API», — добавил Уилсон.
Тем не менее, реализация LAMS требует первоначальных усилий и поставляется с уникальными ограничениями разработки. Во -первых, разработчики должны тренировать LLM на все доступные действия.
Уилсон рекомендует «учиться на наблюдении», где модель наблюдает, как люди взаимодействуют с программным обеспечением и имитируют эти действия. «Эта возможность обучения позволяет им со временем улучшаться без явного перепрограммирования-своего рода подход об обезьяне, обезьяне, который не хватает традиционной автоматизации».
По словам Пиджановски, следующий выбирает фреймворк или инструмент, чтобы построить агента, который находится на вершине. «С генеративным ИИ это было так же просто, как развертывание вашего LLM», — сказал он. «С агентским ИИ вам нужна структура для его вместе и правильно развернуть его в производстве». Он указал на Langgraph Langchain как один пример.
По словам Сингха, стандартные практики, такие как непрерывная интеграция, тестирование, мониторинг и контроль версий, все еще применяются. Архитектура также имеет значение: «LAMS лучше всего работают в средах, которые являются модульными и совместимыми».
Недостатки использования LAMS
Безопасность остается неотложной проблемой для потенциальных пользователей LAM. «Практика безопасности LLM по -прежнему развивается для решения таких проблем, как джейлбрейка, быстрые инъекции и быстрое утечку», — сказал Фурнье. Агент ИИ расширяет поверхность атаки, поэтому лампам нужны сильные ограждения, особенно в таких секторах, как образование, где конфиденциальность, точность и смягчение смещения являются критическими.
«Другим центром будут оценки и критерии, чтобы лучше понять, что делают эти системы и как их улучшить», — сказал Фурнье. Это потребует новых инструментов для мониторинга и постоянной оценки.
Ламс также не подходит для каждого варианта использования, отметил Уилсон: «Традиционный RPA остается лучше для больших объемов, неизменных процессов, которые включают простые, повторяющиеся задачи со стабильными интерфейсами, где эффективность специально построенных решений перевешивает гибкость лам».
По словам Уилсона, в то время как Lams Excel в Dynamic, многосистемных рабочих процессах, RPA лучше подходит для высокотереженанистских задач, таких как регулируемая среда, устаревшая система интеграции или обработку в реальном времени со строгими требованиями к производительности.
Еще одним препятствием является подключение. В рамках агента у вас есть плоскость управления (LAM), которая анализирует запросы и выполняет мышление. Под ним, сказал Пиджановский, у вас есть плоскость инструмента, которая подключается к серверам MCP, базам данных, API и другим агентам на основе LLM.
LAM потребует стандартного протокола для подключения этой плоскости управления с внешними инструментами. И хотя MCP Antropic является лидером, предлагаемые альтернативы, такие как Agent2agent Protocol Google (A2A) и рамка Cisco Open Agentic Schema (OASF), близки к. Протокол де -факто еще не коронован.
Без агентского будущего AI без LAMS
Gartner предсказывает, что более 33% предприятий приложений внедрит агент AI к 2028 году. Хотя LAMS, вероятно, приведет к действию многих из этих задач, некоторые задаются вопросом, как они придадут ценность нюансированных рабочих процессах.
Некоторые, такие как Фурнье, остаются осторожными в отношении того, насколько хорошо ламс будут выполнять субъективные или сужденные задачи. Но другие более уверены.
«LAMS-это не просто улучшает генеративный ИИ, но и расширяет его для обеспечения бизнес-ценности в сложных, реальных условиях»,-сказал Сингх. «LAM — это четкое прогресс в разработке агентского искусственного интеллекта».
Для Уилсона это фундаментально: «Это необходимый компонент агентского искусственного интеллекта. Я не вижу, как у вас есть агент AI без лама».
Red Hat OpenShift для инноваций без ограничений. Возьмите с собой большие идеи с гибридной облачной платформой, открытой для любого приложения, команды или инфраструктуры. Узнайте больше последних из Red Hat Trending Stories YouTube.com/thenewstack Tech Moving быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Билл Доеррфельд — технический журналист и лидер API. Он является главным редактором блога Nordic APIS, глобального сообщества API, посвященного тому, чтобы сделать мир более программируемым. Он также является активным участником горстки … Подробнее о Билле Доерфельде