Магма — это мультимодальная модель Microsoft Foundation для агента

В последнее время было много волнений вокруг агентского ИИ, и, поскольку недавно выпущенная Magma Microsoft компания считает, что ее новая модель AI Foundation будет дать возможность агентам ИИ эффективно выполнять мультимодальные задачи как в цифровых, так и в реальных контекстах, будь то через программное обеспечение или физические роботы.

В результате сотрудничества между исследователями в Microsoft, Кайсте, Университете Мэриленда, Университете Висконсин-Мэдисон и Вашингтонским университетом, Магма расширяется на предыдущей работе в области языка зрения (VLMS), что делает его значительным шагом вперед для автоматизации с AI.

Более конкретно, MAGMA-это модель мультимодального зрения (VLA), которая интегрирует визуальное восприятие, понимание языка и рассуждения действий, позволяя системам ИИ обрабатывать изображения и текстовые инструкции в контексте и предлагать соответствующие действия.

«Магма — первая модель фундамента для мультимодальных агентов искусственного интеллекта», — написала команда на странице проекта Magma. «В качестве основы для мультимодальных агентских моделей она обладает сильными возможностями, чтобы воспринимать мультимодальный мир по-прежнему и предпринимать цели, ориентированные на цели.

«Эффективно переносив знания из свободно доступных визуальных и языковых данных, магма -мостовые соединения словесного, пространственного и временного интеллекта для навигации на сложные задачи и настройки в цифровом и физическом мире».

Через Microsoft Research.

Видение-языковое действие-все в одном моделях ИИ

До недавнего времени программированию, лежащим в основе современных систем управления роботизированным управлением, было трудно адаптироваться к динамической — и часто хаотической природе — реального мира. Например, роботу может быть указано перейти на указанное место на фабрике, чтобы поставить что -то на полку, но если бы неожиданный объект был помещен на свой путь, машина, скорее всего, остановится и испытает проблемы, возникающие вокруг этого незапланированного препятствия, если бы он не был явно запрограммирован для этого.

Традиционный робот может «увидеть» препятствие (видение), но может возникнуть проблемы с рассуждением, что делать дальше (язык), и как это сделать (действие), поскольку эти задачи решаются более разрозненным образом.

Напротив, единая архитектура и подход, стоящие за моделями VLA, позволяют роботам справляться с этими незапланированными сюрпризами человеческим образом, объединяя видение, язык и действия в одном интегрированном процессе, который позволяет роботам импровизировать на лету. Модели VLA, по сути, являются все в одном моделях ИИ, которые позволяют роботам видеть свою среду, понимать, что делать, и действовать интегрированно и адаптивно.

Магма закрывает разрыв

Созданный специально как многоцелевое решение для роботизированных систем, магма интегрирует восприятие и действие в реальном времени, позволяя агентам искусственного интеллекта предпринять действия в нескольких шагах для автономного управления как программным обеспечением, так и роботами с минимальным вмешательством человека.

Магма предварительно обучена на большом количестве различных наборов данных, включая изображения, текст, видео и данные о робототехнике. Текст токенов токенов, в то время как различные типы визуальных данных кодируются через кодер общего зрения. Полученные токены проанализированы крупной языковой моделью (LLM), которая генерирует выходы в словесных, пространственных и действиях.

Однако, по мнению исследователей, трубопровод до обучения магмы представляет собой значительное улучшение по сравнению с предшественниками.

«Из -за драматической разницы между различными цифровыми и физическими средами отдельные модели VLA обучаются и используются для разных сред», — написала команда магмы в посте в блоге Microsoft Research. «В результате эти модели борются за то, чтобы обобщать новые задачи и среды за пределами их обучающих данных. Более того, большинство из этих моделей не используют предварительно обученные модели зрения (VL) или различные наборы VL, которые препятствуют их пониманию отношений VL и обобщения.

«Магма, насколько нам известно, является одной из первых моделей фонда VLA, которые могут адаптироваться к новым задачам как в цифровой, так и в физической среде, что помогает помощникам или роботам, помогающим AI понимать их окружение и предлагать соответствующие действия».

Два примера с сайта проекта Magma показывают, как модель искусственного интеллекта преобразует видео в текст, который отвечает пользователям.

Улучшенные возможности Магмы связаны с новым подходом команды к обучению, который фокусируется на двух основных методах аннотации, разработанных Microsoft Research, которые предназначены для того, чтобы придать модели более структурированный способ понимания задач как при навигационных пользовательских интерфейсах, так и в манипуляциях с роботизированными отношениями:

  • Набор марки (как): Это предназначено для заземления действенных задач в пространстве, во всех модальностях данных, путем назначения численных меток любым интерактивным элементам в среде, таких как кнопки, которые можно щелкнуть, или объекты, которые можно поднять. «Предоставляя SOM, мы даем магме высокий намек на« что требует внимания »-основные элементы задачи-не указав порядок или метод»,-написала команда.
  • Trace-of Mark (Tom): При применении конкретно к данным о видео и робототехнике это позволяет модели изучать возможные шаблоны движений из видеодантеров, чтобы она может «отражать, как эти элементы изменяются или перемещаются на протяжении всего взаимодействия», согласно команде, и, таким образом, предвидеть будущие состояния, планируя потенциальные действия.

Через Microsoft Research.

Во время тестирования команда обнаружила, что MAGMA-8B продемонстрировала сильные показатели в различных критериях, особенно в навигации и задачи пользовательского интерфейса, включающих роботизированные манипуляции. Для последнего производительность магмы фактически превосходит открытый исходный код в различных задачах.

Как отметила команда Microsoft, Магма — это всего лишь один из компонентов того, что компания рассматривает как будущее агентских систем ИИ, которые способны выполнять задачи как в цифровых, так и в физических мирах. Компания также недавно продвинулась вперед со своим последним выпуском Autogen, популярной структуры программирования с открытым исходным кодом для разработки многоагентных систем ИИ, и в настоящее время находится в процессе экспериментов с новыми системами пользовательских опытов, работающих на основе моделей Foundation Agentic AI.

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Кимберли Мок — репортер технологий и дизайна, который охватывает искусственный интеллект, робототехнику, квантовые вычисления, техническую культуру и научные истории для нового стека. Обученная как архитектор, она также является иллюстратором и междисциплинарным дизайнером, который был увлечен … Подробнее от Kimberley Mok

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *