Кросс-модальный поиск: почему это важно для мультимодального ИИ

В последнее время было много обсуждений вокруг мультимодального ИИ-как могут быть построены эти системы, варианты с открытым исходным кодом, мелкие альтернативы, а также инструменты для решения справедливости и предвзятости в мультимодальном ИИ.

Благодаря своей способности одновременно обрабатывать различные типы данных (например, текст, изображение, аудио, видео и многое другое), продолжающаяся разработка мультимодального ИИ представляет собой следующий шаг, который поможет еще больше улучшить широкий спектр инструментов, в том числе для генеративных ИИ и автономного агента.

С этой целью улучшение того, как машины могут найти соответствующую информацию в этом растущем диапазоне разнообразных типов данных, жизненно важно для дальнейшего улучшения возможностей мультимодального ИИ.

Это может означать использование текстовой подсказки для поиска конкретной фотографии или видео (текстовое изображение, текстовое видео) или наоборот-процесс, с которым многие из нас уже знакомы.

Общий процесс межмодального поиска. Через Z. Han et al.

Как работает кросс-модальный поиск

Цель кросс-модального поиска состоит в том, чтобы извлечь соответствующую информацию по различным типам данных. Тем не менее, это может быть сложно из -за различий в структурах данных, пространствах функций и того, как эта информация может быть семантически изображена в разных методах.

Это приводит к смещению между этими различными семантическими пространствами и трудностями для прямого сравнения — проблемой, которую исследователи называют гетерогенным пробелом модальности. Следовательно, большая часть исследований в межмодальных полевых центрах, связанных с поиском и созданием общих рамок для мультимодальных данных, для облегчения межмодальных задач поиска.

Обучение представления в перекрестном поиске

Чтобы решить эту проблему, большинство межмодальных методов поиска обычно используют так называемое обучение представлению. Этот процесс упрощает различные виды необработанных, модальных данных в шаблоны — или представления — что машина может понять, чтобы их можно было отображать в общее пространство или структуру, что облегчает извлечение полезной информации. Обучение представления помогает повысить интерпретацию, раскрыть скрытые функции, а также облегчает обучение передачи.

Как правило, эти подходы к обучению представления в межмодальном поиске могут быть разделены на два типа: Реальная стоимость поиска и Извлечение бинарной стоимостиа также контролируемые и неконтролируемые формы каждого типа поиска.

Реальная стоимость поиска

Поперечное извлечение на основе реальной стоимости направлено на то, чтобы дистировать низкоразмерные, реальные особенности мультимодальных данных, сохраняя тем самым более глубокую семантическую информацию.

Общее пространство представления может быть разделено между различными типами данных, с наиболее коррелированными данными, расположенными рядом друг с другом в этом пространстве.

В течение многих лет был одним из наиболее часто используемых алгоритмов для перекрестного поиска Канонический анализ корреляции (CCA), классический статистический метод, который извлекает функции из необработанных данных, а затем максимизирует корреляцию между парными представлениями межмодальных данных, таких как изображения и текст,-перед их выравниванием в общем подпространстве, чтобы облегчить перекрестный поиск. Тем не менее, недостатки CCA включают значительные семантические разрывы между различными методами, поскольку они лучше всего используются для захвата статистических отношений, а не более сложных, нелинейных семантических отношений.

Хотя методы обучения в реальном представлении позволяют более непосредственно измерять различные методы данных, недостатком является то, что этот подход требует большего количества хранения и вычислительных ресурсов.

Хотя классификации методов поиска реальной ценности различаются, они попадают в эти общие категории, которые могут быть контролированы или не контролируются:

  • Неглубокий поиск реальной ценности: Использует методы статистического анализа для моделирования мультимодальных ассоциаций данных.
  • Глубокий поиск реальной ценности: Включает в себя изучение особенностей, совместных представлений, сложных семантических отношений и моделей между различными типами данных, используя глубокие нейронные сети.
  • Модели RNN (повторяющаяся нейронная сеть): Используется главным образом для обработки данных последовательных и временных рядов (например, текст, видео) и для объединения его с изображением, извлеченными с помощью моделей CNN (сверточная нейронная сеть).
  • Ган (Генеративная состязательная сеть): Эта архитектура глубокого обучения использует конкурирующие компоненты «генератора» и «дискриминатора» для изучения распространения данных. При использовании в перекрестном поиске это позволяет модели изучать корреляции в различных типах данных.
  • Регуляризация графика: Благодаря своей способности размещать множественные модальности в интегрированной структуре, он может захватить широкий спектр корреляций между различными формами данных.
  • Методы трансформатора: Основываясь на инновационном механизме самоприщепления, архитектура трансформатора позволяет глубокому обучению сетей одновременно обрабатывать все входящие входы, что делает его эффективным вариантом для межмодальных задач поиска.

Бинарная стоимость (хэшинг) поиск

Также называемая кросс-модальным поиском на основе хэшина, эта форма репрезентативного обучения кодирует данные из разных модальностей, сжав их в двоичный код, который затем транспонируется в общее двоичное пространство для обучения, что позволяет более эффективно и масштабируется поиск, и снижает потребности в хранении, хотя точность и семантическая информация могут быть немного уменьшены. Еще одним преимуществом поиска хеширования является то, что бинарные хеш -коды короче и более упрощены, чем исходные данные, что помогает облегчить то, что компьютерные ученые называют проклятием размерности.

Как в контролируемом, так и в хэшировании без контроля функции хеш изучаются в процессе оптимизации, который сводит к минимуму расхождения между исходными данными и бинарными кодами.

Общая структура перекрестного извлечения хеширования. Через Z. Han et al.

Методы межмодального хеширования можно разделить на три основные категории:

  • Контролируется: Использует помеченные данные для обучения хэш-функций, которые помогают сохранить семантическое сходство между парными случаями мультимодальных данных, а также максимизируют расстояние химирования между не соответствующими экземплярами. Под наблюдением кросс-модального хешина может быть дополнительно классифицировано как мелкое или глубокое обучение.
  • Без присмотра: Не использует помеченные данные и вместо этого полагается на обучение, имеет функции исключительно из распределения данных. Эти методы используют корреляцию между методами данных для изучения взаимосвязи между ними как кодируемых в бинарной форме. Аналогичным образом, неконтролируемые методы также могут быть подразделены на мелкие и глубокие методы поиска.
  • Полуопервижение: Эти методы будут использовать богатые, немеченые наборы данных для повышения производительности контролируемого моделей.

Почему кросс-модальный поиск имеет значение

Поскольку информация становится все более мультимодальной и неоднородной, станет жизненно важным для решения проблем в области межмодального поиска. Это поможет сократить разрыв между различными формами данных, повышая точность и актуальность результатов поиска для людей, а также позволит машинам понять мир более похожим на человека.

При применении в реальном мире, кросс-модальный поиск может быть использован для широкого спектра вариантов использования, таких как автоматическое генерирование точных описаний различных типов контента. Это расширяет возможности голосовых помощников понимать сложные запросы или помогает установить более естественные и интуитивно понятные взаимодействия человека с компьютером.

Поскольку перекрестный поиск продолжает развиваться, такие проблемы, как гетерогенный разрыв в модальности, улучшение иерархического семантического выравнивания и нелинейное обучение корреляции между различными методами потребует большей разработки, а также улучшение пользовательских интерфейсов, конфиденциальности и безопасности.

Кросс-модальные инструменты поиска

Чтобы углубиться в доступное исследование перекрестного поиска и головокружительного множества инструментов и наборов данных, вы можете проверить этот категоризированный список на GitHub, а также этот набор инструментов, который включает в себя некоторые репозитории с открытым исходным кодом.

Наша цель в Tabnine-создать и предоставить и доставлять рабочий процесс разработки с AVEPOM-ASISTOM, который дает возможность всем создателям кода, на всех языках, от концепции до завершения. Узнайте больше последних из Tabnine Trending Stories YouTube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Кимберли Мок — репортер технологий и дизайна, который охватывает искусственный интеллект, робототехнику, квантовые вычисления, техническую культуру и научные истории для нового стека. Обученная как архитектор, она также является иллюстратором и междисциплинарным дизайнером, который был увлечен … Подробнее от Kimberley Mok

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *