Руководство разработчика по языковым моделям

Недавнее появление мультимодального ИИ означало, что системы ИИ в настоящее время становятся все более многоцелевыми по своей природе, поскольку они одновременно обрабатывают и генерируют различные методы данных, включая текст, изображения, аудио и видео — интегрированно.

Одним из наиболее универсальных подмножеств мультимодального ИИ является модель языка зрения (VLM), которая сочетает в себе возможности обработки естественного языка (NLP) и компьютерного видения (CV) для решения задач и поколения на языке зрения, таких как подписание изображения, ответ на визуальные вопросы, поиск и поколение текста на изображение.

Архитектура моделей языка зрения

Языковые модели зрения способны обрабатывать как текстовые, так и на основе изображения входные данные, при этом часть модели компьютерного зрения анализирует и интерпретирует визуальные данные, а также часть обработки естественного языка модели, анализирующей и понимая текст. В некотором смысле, можно представить VLMS как поливалентные крупные языковые модели (LLMS), которые способны понимать как слова, так и изображения.

Вообще говоря, VLM состоят из этих основных компонентов:

Vision Encoder: Эта часть извлекает визуальные сигналы, такие как формы, узоры и цвета из визуальных входов, и преобразует их в векторные встраивания-или численные представления точек данных в высокомерном пространстве, что может быть понято с помощью модели ИИ. В прошлом VLMS использовал сверточные нейронные сети для извлечения функций из изображений. В настоящее время многие VLM обычно используют трансформатор зрения (VIT), который делит изображение на «патчи» фиксированного размера, а затем обрабатывает их как токены, очень похожие на то, как языковая модель, основанная на трансформаторах, может анализировать слова в предложении.
Языковой кодер: Этот компонент оценивает семантическое значение и контекстуальные ассоциации между словами и преобразует эту информацию в текстовые встроения.
Проектор/механизм слияния: Этот жизненно важный элемент выравнивает функцию встраивания из кодеров видения и языка в общее мультимодальное пространство.
Мультимодальный трансформатор: Работая над комбинированным видением и языком, этот интегрированный компонент часто использует механизм самопристывания в рамках модальностей, который весит контекстуальную важность токенов слов в последовательности, что позволяет модели предсказывать наиболее вероятный порядок слов в предложении. Кроме того, он использует механизм перекрестного привлечения между модальностями для изучения отношений между изображениями и словами, а также позиционного кодирования, чтобы сохранить контекстуальность между патчами изображения и токенами текста.
Направляющие для конкретной задачи: Они адаптируют окончательные результаты для любых конкретных задач, которые была разработана модель. Некоторые примеры голов, специфичных для задачи, включают в себя классификационные головки, головы генерации и ответные вопросы.

Диаграмма общей архитектуры VLM (через nvidia).

Методы обучения для обучения VLMS

Стратегии для обучения VLM часто включают в себя сочетание методов, которые помогают выравнивать и слияние данных как из компонентов зрения, так и из языковых компонентов.

Контрастное обучение: Этот подход обучает модель, чтобы различать сходные и разнородные пары точек данных путем отображения изображения и текста встроения в общее пространство встраивания. Поскольку модель тренируется на наборах данных, состоящие из парных изображений и текста, она генерирует оценку сходства. Затем он учится свести к минимуму расстояние между соответствующими парами встраиваемых паров, максимизируя расстояние между теми, которые не совпадают. Одним из примеров контрастной модели является CLIP, который использует трехэтапный процесс для выполнения нулевых выстрелов.
Prefixlm: Это метод обучения NLP для моделей Pretraining Language, где часть текста (то есть префикс) используется в качестве ввода, и модель учится предсказать следующую часть в последовательности. С помощью VLMS PrefixLM часто используется в сочетании с упрощенной архитектурой SIMVLM, чтобы обеспечить возможности обучения с нулевым выстрелом, что позволяет модели эффективно предсказать следующую последовательность текста на основе изображения и связанного с ним текстового префикса и использования трансформатора зрения.
Замороженный префикслм: Этот метод обучения основана на префикселм, но параметры языковой модели заморожены во время обучения, что приводит к более эффективному учебному процессу в вычислительном отношении.
Моделирование в маске: С таким подходом части ввода на основе текста или изображения случайно скрыты. Затем VLM научится прогнозировать и «заполнять» недостающие части ввода в масках, либо с использованием моделирования языка маскированного языка для генерации недостающей текстовой информации при предоставлении разобранного изображения, либо путем использования моделирования изображения в масках для восстановления недостающих пикселей изображения при предоставлении немаскированного текстового набора. Флава (основополагающий язык и выравнивание зрения) является одним из примеров модели, которая использует эту технику маскировки, а также контрастное обучение.
Обучение генеративной модели: Этот метод обучает VLM создавать новые выходы, в зависимости от приведенных входов текста и изображений. Это может означать генерирование изображений на основе текстовых входов (текстовых до изображений), или текстовых подписей или резюме, связанных с изображением (изображение в текст). Примеры генеративных VLM на основе диффузии на основе текста до изображения включают в себя полуджурни и стабильную диффузию.
Предварительно подготовленные модели: Чтобы снизить стоимость и время обучения VLM с нуля, также возможно построить его, используя предварительно проведенные LLMS и кодеры зрения, с добавлением дополнительных слоев сети отображения для выравнивания изображения и текстовых представлений. Растилляция знаний — это один из методов, который может быть использован для передачи знаний из модели «Учитель» в более простую, более легкую модель «ученика». В качестве альтернативы, также можно адаптировать и точно настроить существующий VLM для конкретного приложения, используя такие инструменты, как трансформаторы и sfttrainer.

Как можно использовать языковые модели зрения

Модели языка зрения могут быть использованы в широком спектре приложений, которые требуют синтезирования визуальной и текстовой информации, включая:

Генерация изображений.
Подпись изображения и суммирование.
Сегментация изображения.
Поиск изображения.
Обнаружение объекта.
Видео понимание.
Ответ на визуальный вопрос (VQA).
Извлечение текста для интеллектуального понимания документа.
Модерация и безопасность онлайн -контента.
Получение интерактивных систем, например, для образования и здравоохранения.
Телемедицина, автоматизированные диагностические инструменты и виртуальные помощники здравоохранения.

Заключение

Языковые модели зрения — это всего лишь один подтип растущего числа универсальных и мощных мультимодальных моделей искусственного интеллекта, которые сейчас появляются. Но, как и в случае разработки и развертывания любой модели искусственного интеллекта, всегда возникают проблемы, когда речь идет о потенциальном предвзятости, затратах, сложности и галлюцинациях. В предстоящем посте мы рассмотрим некоторые из наборов данных, используемых для обучения VLMS, тесты для их оценки, а также некоторые известные VLM и что они могут сделать.

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Кимберли Мок — репортер технологий и дизайна, который охватывает искусственный интеллект, робототехнику, квантовые вычисления, техническую культуру и научные истории для нового стека. Обученная как архитектор, она также является иллюстратором и междисциплинарным дизайнером, который был увлечен … Подробнее от Kimberley Mok

Разработка сайтов в Гомеле

Добавить комментарий Отменить ответ

Похожие записи

Как развернуть VaultWarden, серверную альтернативу Bitwarden

Код в любом месте: Включите планшет Android в машину разработки

ServiceNow приобретает Data.World для расширения своей стратегии данных ИИ

Понимание Python »и« Оператор: использование, примеры и лучшие практики

Безопасная фирма Snyk справляется с идеальным штормом кодирования ИИ

Qodo теперь позволяет разработчикам создавать свои собственные кодирующие агенты

Как упрочнение времени выполнения обеспечивает соблюдение ИИ, облачный нативный безопасность

Java модернизируется: новые инструменты для ИИ и квантового возраста

Как распределенные Postgres решают проблему высокой доступности Cloud

Стратегии слияния, чтобы сохранить строительство в больших монорепо.

Каскад сбоев: анализ масштабного сбоя AWS

Соавтор Unix Брайан Керниган на Rust, Distros и Nixos

Вам тоже может быть интересно:

Uber пилотирует счета для подростков в Индии

Sora Openai теперь доступна в ЕС, Великобритания

US Pharma Giant Merck поддерживает рынок здравоохранения HD в Юго -Восточной Азии

Гвинет Пэлтроу говорит, что GOOP все в порядке

DeepSeek заставляет Силиконовую долину говорить

TS Anil, генеральный директор Monzo, присоединяется к нашей строгому линейке London strictlyvc

20 самых горячих стартапов с открытым исходным кодом в 2024 году

Byd, чтобы предложить Tesla-подобную помощь водителя, даже на самых дешевых моделях

Ford становится протекционистским, так как убыток EV в верхней части $ 5 млрд.

Близнецы Google теперь позволяют вам задавать вопросы, используя видео или что на вашем экране

TechCrunch All Stage открывает мощную повестку дня для основателей

Северная Корея запускает новое подразделение с акцентом на взломе ИИ, в соответствии с отчетом