Недавнее появление мультимодального ИИ означало, что системы ИИ в настоящее время становятся все более многоцелевыми по своей природе, поскольку они одновременно обрабатывают и генерируют различные методы данных, включая текст, изображения, аудио и видео — интегрированно.
Одним из наиболее универсальных подмножеств мультимодального ИИ является модель языка зрения (VLM), которая сочетает в себе возможности обработки естественного языка (NLP) и компьютерного видения (CV) для решения задач и поколения на языке зрения, таких как подписание изображения, ответ на визуальные вопросы, поиск и поколение текста на изображение.
Архитектура моделей языка зрения
Языковые модели зрения способны обрабатывать как текстовые, так и на основе изображения входные данные, при этом часть модели компьютерного зрения анализирует и интерпретирует визуальные данные, а также часть обработки естественного языка модели, анализирующей и понимая текст. В некотором смысле, можно представить VLMS как поливалентные крупные языковые модели (LLMS), которые способны понимать как слова, так и изображения.
Вообще говоря, VLM состоят из этих основных компонентов:
- Vision Encoder: Эта часть извлекает визуальные сигналы, такие как формы, узоры и цвета из визуальных входов, и преобразует их в векторные встраивания-или численные представления точек данных в высокомерном пространстве, что может быть понято с помощью модели ИИ. В прошлом VLMS использовал сверточные нейронные сети для извлечения функций из изображений. В настоящее время многие VLM обычно используют трансформатор зрения (VIT), который делит изображение на «патчи» фиксированного размера, а затем обрабатывает их как токены, очень похожие на то, как языковая модель, основанная на трансформаторах, может анализировать слова в предложении.
- Языковой кодер: Этот компонент оценивает семантическое значение и контекстуальные ассоциации между словами и преобразует эту информацию в текстовые встроения.
- Проектор/механизм слияния: Этот жизненно важный элемент выравнивает функцию встраивания из кодеров видения и языка в общее мультимодальное пространство.
- Мультимодальный трансформатор: Работая над комбинированным видением и языком, этот интегрированный компонент часто использует механизм самопристывания в рамках модальностей, который весит контекстуальную важность токенов слов в последовательности, что позволяет модели предсказывать наиболее вероятный порядок слов в предложении. Кроме того, он использует механизм перекрестного привлечения между модальностями для изучения отношений между изображениями и словами, а также позиционного кодирования, чтобы сохранить контекстуальность между патчами изображения и токенами текста.
- Направляющие для конкретной задачи: Они адаптируют окончательные результаты для любых конкретных задач, которые была разработана модель. Некоторые примеры голов, специфичных для задачи, включают в себя классификационные головки, головы генерации и ответные вопросы.
Диаграмма общей архитектуры VLM (через nvidia).
Методы обучения для обучения VLMS
Стратегии для обучения VLM часто включают в себя сочетание методов, которые помогают выравнивать и слияние данных как из компонентов зрения, так и из языковых компонентов.
- Контрастное обучение: Этот подход обучает модель, чтобы различать сходные и разнородные пары точек данных путем отображения изображения и текста встроения в общее пространство встраивания. Поскольку модель тренируется на наборах данных, состоящие из парных изображений и текста, она генерирует оценку сходства. Затем он учится свести к минимуму расстояние между соответствующими парами встраиваемых паров, максимизируя расстояние между теми, которые не совпадают. Одним из примеров контрастной модели является CLIP, который использует трехэтапный процесс для выполнения нулевых выстрелов.
- Prefixlm: Это метод обучения NLP для моделей Pretraining Language, где часть текста (то есть префикс) используется в качестве ввода, и модель учится предсказать следующую часть в последовательности. С помощью VLMS PrefixLM часто используется в сочетании с упрощенной архитектурой SIMVLM, чтобы обеспечить возможности обучения с нулевым выстрелом, что позволяет модели эффективно предсказать следующую последовательность текста на основе изображения и связанного с ним текстового префикса и использования трансформатора зрения.
- Замороженный префикслм: Этот метод обучения основана на префикселм, но параметры языковой модели заморожены во время обучения, что приводит к более эффективному учебному процессу в вычислительном отношении.
- Моделирование в маске: С таким подходом части ввода на основе текста или изображения случайно скрыты. Затем VLM научится прогнозировать и «заполнять» недостающие части ввода в масках, либо с использованием моделирования языка маскированного языка для генерации недостающей текстовой информации при предоставлении разобранного изображения, либо путем использования моделирования изображения в масках для восстановления недостающих пикселей изображения при предоставлении немаскированного текстового набора. Флава (основополагающий язык и выравнивание зрения) является одним из примеров модели, которая использует эту технику маскировки, а также контрастное обучение.
- Обучение генеративной модели: Этот метод обучает VLM создавать новые выходы, в зависимости от приведенных входов текста и изображений. Это может означать генерирование изображений на основе текстовых входов (текстовых до изображений), или текстовых подписей или резюме, связанных с изображением (изображение в текст). Примеры генеративных VLM на основе диффузии на основе текста до изображения включают в себя полуджурни и стабильную диффузию.
- Предварительно подготовленные модели: Чтобы снизить стоимость и время обучения VLM с нуля, также возможно построить его, используя предварительно проведенные LLMS и кодеры зрения, с добавлением дополнительных слоев сети отображения для выравнивания изображения и текстовых представлений. Растилляция знаний — это один из методов, который может быть использован для передачи знаний из модели «Учитель» в более простую, более легкую модель «ученика». В качестве альтернативы, также можно адаптировать и точно настроить существующий VLM для конкретного приложения, используя такие инструменты, как трансформаторы и sfttrainer.
Как можно использовать языковые модели зрения
Модели языка зрения могут быть использованы в широком спектре приложений, которые требуют синтезирования визуальной и текстовой информации, включая:
- Генерация изображений.
- Подпись изображения и суммирование.
- Сегментация изображения.
- Поиск изображения.
- Обнаружение объекта.
- Видео понимание.
- Ответ на визуальный вопрос (VQA).
- Извлечение текста для интеллектуального понимания документа.
- Модерация и безопасность онлайн -контента.
- Получение интерактивных систем, например, для образования и здравоохранения.
- Телемедицина, автоматизированные диагностические инструменты и виртуальные помощники здравоохранения.
Заключение
Языковые модели зрения — это всего лишь один подтип растущего числа универсальных и мощных мультимодальных моделей искусственного интеллекта, которые сейчас появляются. Но, как и в случае разработки и развертывания любой модели искусственного интеллекта, всегда возникают проблемы, когда речь идет о потенциальном предвзятости, затратах, сложности и галлюцинациях. В предстоящем посте мы рассмотрим некоторые из наборов данных, используемых для обучения VLMS, тесты для их оценки, а также некоторые известные VLM и что они могут сделать.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Кимберли Мок — репортер технологий и дизайна, который охватывает искусственный интеллект, робототехнику, квантовые вычисления, техническую культуру и научные истории для нового стека. Обученная как архитектор, она также является иллюстратором и междисциплинарным дизайнером, который был увлечен … Подробнее от Kimberley Mok