Какие языковые модели вы должны использовать для своих приложений

Модели языка зрения (VLMS) представляют собой многообещающее подмножество мультимодального ИИ, способного обрабатывать два различных метода текста и изображения для выполнения широкого спектра задач на языке зрения-таких как подписание изображения, поиск изображений и поиск, генерация текста к изображению, обращение визуальных вопросов (VQA) и понимание видео.

В нашем предыдущем посте о языковых моделях зрения мы рассмотрели некоторые основы их базовой архитектуры, некоторые стратегии для их обучения и то, как их можно использовать. Теперь мы рассмотрим наиболее широко используемые VLM, которые в настоящее время доступны, некоторые общие инструменты оценки и наборы данных, которые чаще всего используются для их обучения.

Модели популярного языка зрения

Языковые модели зрения развиваются в впечатляющем темпе, когда все время появляются новые и более мощные модели. Ни в каком конкретном порядке вы можете найти неэкгартный список некоторых из самых популярных VLM и того, что они могут сделать.

GPT-4O: Разработанный OpenAI, это один из ведущих проприетарных VLM, способных преуспеть в визуальном понимании и генерировать текстовый, визуальный и аудиоконтент.

Лама 4: Мощная мультимодальная модель искусственного интеллекта с открытым исходным кодом оснащена новой архитектурой смеси экспертов (МО) и может похвастаться глазном контекстом из 10 миллионов токенов. В трех разных размерах он основан на идее нативной мультимодальности, без внешних «патчей», которые предшествуют моделям, необходимым для выполнения задач, основанных на зрении.

Gemini 2.5 Flash: Эта версия флагманской модели ИИ от Google демонстрирует более высокую и более высокую производительность в мультимодальном понимании и рассуждениях, с окном контекста токена в 1 миллион и поддержкой для нескольких изображений, до 3000 изображений на подсказку.

DeepSeek-Vl2: Благодаря нескольким вариантам этот впечатляющий VLM с открытым исходным кодом от DeepSeek AI стремится к передовому мультимодальному пониманию в различных задачах на языке зрения. Благодаря своей архитектуре смеси экспертов (MOE) модель способна активировать меньше параметров, чтобы максимизировать эффективность, одновременно достигая превосходной производительности, которая конкурирует с аналогичными моделями.

Kimi-vl-мышление: Этот VLM от AI Moonshot AI — это «продвинутый долгий размышленный вариант», известный своим солидным производительностью в обработке более длинных видео, изображений и документов.

QWEN2,5-VL: Созданная Alibaba Cloud, эта модель показывает впечатляющие возможности в понимании документов и длинных видео, а также локализации объектов и многоязычного OCR.

Джемма 3: Gemma 3, представляющая собой ответ Google DeepMind для универсального, эффективного, легкого, открытого и очень способного мультимодального AI, который можно запускать на одном TPU или графическом процессоре.

Molmo: Семейство VLM с открытым исходным кодом из Института искусственного интеллекта Аллена, MOLMO известна высокопрофессиональным мультимодальным взаимодействием, используя гораздо меньше данных обучения, чем его конкуренты благодаря инновационному обучению, который способствует речевым аннотациям по сравнению с большими наборами наборов.

Nvlm: Семейство Nvidia открытых мультимодальных ИИ-моделей пограничного класса известна своими самыми современными результатами в задачах на языке зрения, в частности, опережая многие проприетарные и открытые модели в OCR.

Пикстральный: В двух версиях, Pixtral Pixtral с открытым весом и Pixtral 12B с открытым исходным кодом, мультимодальные VLMS Mistral AI оснащены мощным мультимодальным декодером и энкодером зрения для обеспечения расширенных рассуждений и межмодального понимания, таких как обработка длинных документов с переплетенным текстом и изображениями.

Оценка моделей языка зрения

Производительность моделей языка зрения может быть оценена с помощью разнообразной комбинации специфических для задач показателей, контрольных показателей в определенных областях, а также оценки под руководством человека.

  • Подпись изображения: Эта задача сочетает в себе компьютерное зрение и обработку естественного языка, с текстовой подписью, генерируемой, когда модель сталкивается с визуальным изображением. Популярные метрики для получения изображений включают Bleu, Rouge, Cider, Spice, Meteor и Clipscore. Полезные тесты включают в себя Coco подписчики, Caparena и Flickr30k.
  • Визуальный вопрос ответа (VQA): Задачи с ответом на визуальные вопросы требуют, чтобы модель правильно отвечала на вопросы, полученные из пары image. Для вопросов закрытого, «да» или «нет», измеряется точность; В то время как более сложные, открытые вопросы могут быть оценены с использованием анализа на основе человека или чтения установленных показателей, таких как Cider. Некоторые полезные тесты для этих типов задач включают VQA V2.0, GQA и OK-VQA.
  • Визуальные рассуждения и понимание: Модели оцениваются на основе их способностей для логического вывода. Обычные показатели включают NLVR2, массивный MMMU, который содержит более 11,5 тыс. Мультимодальных задач, а также Mathvista для визуальных математических рассуждений, MMBench для локализации объектов и распознавания оптических символов и DOCVQA для понимания визуальных документов.
  • Кросс-модальный поиск: Классифицируется как задачи поиска изображения в тексте или в поисках текста, соответствующие метрики включают Recall@K и среднюю среднюю точность (MAP).

Источник

Тем не менее, новые стратегии оценки возникают по мере развития VLM и получают более широкий спектр возможностей. Некоторые из них включают VHELM (целостная оценка моделей языка зрения), которая оценивает VLM на нескольких уровнях, включая визуальное восприятие, рассуждения, надежность, безопасность и токсичность, а также предвзятость и справедливость. Image2Struct — еще один всеобъемлющий подход, который оценивает VLMS, насколько хорошо они извлекают структурированную информацию из изображений.

Тем не менее, человеческая оценка также имеет решающее значение, когда речь идет о оценке VLM для нюансов, беглости, актуальности и творчества — помимо того, что ловит любые тонкие ошибки, которые могут быть запутаны автоматическими показателями.

Наборы данных для обучения языковые модели зрения

  • Laion-5b: Этот открытый, крупномасштабный набор данных LAION-5B включает в себя более 5 миллиардов клип-фильтров, разнообразные пары с изображением с изображением, с подписями на различных языках; Таким образом, позволяя устойчиво, многоязычно модели.
  • PMD (набор данных публичной модели): Благодаря более 70 миллиардам пар изображений, которые были получены из крупномасштабных наборов данных, таких как Coco, концептуальные подписи и Redcaps, набор данных публичной модели обеспечивает множество мультимодальных данных.
  • VQA: Этот набор данных содержит более 200 000 изображений, на которых есть в сочетании с пятью вопросами, которые, в свою очередь, связаны с десятью ответами на землю и тремя неправильными ответами на вопрос. Набор данных VQA обычно используется для предварительно обученных VLMS с тонкой настройкой для визуального ответа на вопросы и визуальных задач.
  • Визуальный геном: Этот набор данных состоит из более чем 100 000 изображений с 1,7 миллионами пар вопросов-ответов, в среднем 17 вопросов на изображение. В отличие от набора данных VQA, Visual Genome предлагает более сбалансированные вопросы по шести типам вопросов (кто, что, где, когда, почему и как), в дополнение к богатым объектным аннотациям, которые отражают широкий спектр атрибутов и отношений.
  • ImageNet: С более чем 14 миллионами аннотированных и организованных изображений, набор данных ImageNet чаще всего используется для таких задач, как классификация изображений и распознавание объектов. Для задач, которые требуют повышенной объяснения и прозрачности модели, ImageNet-X является еще одним вариантом.

Заключение

При наличии так много VLMS может быть трудно выбрать модель, которая лучше всего подходит для вашего использования. Таблицы лидеров и наборы инструментов для оценки, такие как Vision Arena, Open VLM Leader Soade и Vlmevalkit с открытым исходным кодом, могут помочь разработчикам сделать этот выбор.

Тем не менее, несмотря на их мощные возможности, необходимо решить некоторые потенциальные проблемы при работе с VLM, такими как предвзятость, стоимость, галлюцинации и трудности с моделью, обучающимся, чтобы обобщить, чтобы сделать точные прогнозы на новые данные, которых они раньше не видели.

В конечном счете, поскольку ландшафт моделей на языке зрения продолжает развиваться, мы можем ожидать, что модели станут более сложными и способными решать все более сложные сложные задачи.

Для получения дополнительной информации ознакомьтесь с нашим предыдущим постом о языковых моделях зрения, изложены архитектурой и некоторые методы обучения для обучения VLMS.

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Кимберли Мок — репортер технологий и дизайна, который охватывает искусственный интеллект, робототехнику, квантовые вычисления, техническую культуру и научные истории для нового стека. Обученная как архитектор, она также является иллюстратором и междисциплинарным дизайнером, который был увлечен … Подробнее от Kimberley Mok

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *