Изучение RTEB, нового эталона для оценки моделей внедрения

MongoDB спонсировал этот пост.

С появлением больших языковых моделей (LLM) наше знакомство с тестами, не говоря уже о их количестве и разнообразии, резко возросло. Учитывая непрозрачную природу LLM и других систем искусственного интеллекта, стандартным способом сравнения их производительности стали тесты.

Это стандартизированные тесты или наборы данных, которые оценивают, насколько хорошо модели справляются с конкретными задачами. В результате каждая новая версия модели приносит обновленные результаты таблицы лидеров, и встраиваемые модели не являются исключением.

Сегодня встраивания лежат в основе поискового уровня приложений ИИ, однако выбор правильной модели остается сложной задачей. Тест Massive Text Embedding Benchmark (MTEB), выпущенный в 2022 году, стал стандартом для оценки встраивания, но это широкий тест общего назначения, охватывающий множество задач, не связанных с поиском данных.

MTEB также использует общедоступные наборы данных, и хотя это способствует прозрачности, это может привести к переобучению — модели обучаются на данных оценки. В результате оценки MTEB не всегда отражают реальную точность поиска.

Retrival Embedding Benchmark (RTEB), новый тест, ориентированный на извлечение, устраняет эти ограничения, концентрируясь на реальных задачах извлечения и используя как открытые, так и частные наборы данных, чтобы лучше отражать истинное обобщение новых невидимых данных. Давайте рассмотрим RTEB, его направленность, наборы данных и способы его использования.

Как оцениваются встраивания?

Прежде чем погрузиться в RTEB, важно понять критерии и их значение. Поскольку модели ИИ, такие как модели внедрения, представляют собой черные ящики, оценить их качество сложно. Тест – это стандартизированный набор задач, используемый для оценки этих моделей. Контрольные показатели помогают измерять производительность, определять области для улучшения и сравнивать результаты со стандартными базовыми показателями, другими моделями или прошлыми показателями.

Рисунок 1. Пример результатов RTEB для проверенных моделей внедрения.

Создание эффективных эталонов – нетривиальная задача. Наборы данных и определения задач должны отражать реальное использование, чтобы обеспечить возможность значимого сравнения. Однако многие тесты не справляются с этой задачей, поскольку используют наборы данных, которые не отражают реальные варианты использования, что приводит к результатам, которые не отражают реальные приложения.

Еще одна серьезная проблема – переоснащение. Поскольку наборы контрольных данных обычно общедоступны, модели часто в конечном итоге обучаются — намеренно или нет — на данных оценки. Это приводит к завышенным оценкам тестов, которые не отражают истинного обобщения невидимых данных.

Помимо этих проблем, решающее значение также имеет контрольный охват. Например, MTEB, самый популярный тест для оценки точности модели внедрения, охватывает восемь различных категорий задач. Хотя такой широкий охват полезен для общего сравнения, он может ввести в заблуждение, если вас волнует производительность в конкретных случаях использования. На практике вам следует сосредоточиться на тестах или задачах, которые тесно связаны с вашими предполагаемыми приложениями.

RTEB: новый эталон, ориентированный на поиск данных

Хотя модели внедрения можно использовать для многих задач, наиболее распространенным вариантом их использования сегодня является извлечение — обеспечение поиска, включение систем дополненной генерации (RAG) и сопоставление запросов с соответствующими документами.

Именно поэтому был создан тест Retrival Embedding Benchmark. RTEB — это новый эталон, ориентированный конкретно на задачи поиска. Он основан на MTEB, предоставляя структуру оценки, ориентированную на поиск, предназначенную для точного измерения истинной точности поиска встроенных моделей посредством:

  • Гибридный подход: RTEB объединяет наборы общедоступных данных (некоторые из которых используются совместно с MTEB) и частные наборы. Это предотвращает переоснащение — иначе говоря, «обучение тесту» — гарантируя, что модели не обучаются на данных оценки. Включение частных наборов данных обеспечивает более точную меру обобщения невидимых данных.
  • Реальное и многоязычное освещение: RTEB охватывает ключевые корпоративные области, такие как финансы, здравоохранение и кодирование, и оценивает поиск на более чем 20 языках. Эти наборы данных лучше отражают варианты использования, встречающиеся сегодня на предприятиях.

Рисунок 2. Обзор RTEB.

Точность для каждой задачи набора данных, измеренная с использованием нормализованного дисконтированного совокупного прироста при ранге 10 (nDCG@10), используется для ранжирования моделей, создавая ранг для каждой задачи. Этот показатель предпочтителен для измерения точности поиска, поскольку он отражает как релевантность, так и качество ранжирования, тесно согласуясь с тем, как люди воспринимают результаты поиска.

Затем эти ранги объединяются с использованием счетчика Борда для определения окончательного рейтинга в таблице лидеров. Среднее значение оценок задач не используется напрямую, поскольку необработанные показатели различаются для разных задач — некоторые наборы данных имеют больший или меньший диапазон оценок, что может привести к дисбалансу среднего значения. Подсчет Борда нормализует эти масштабные различия и подчеркивает относительную производительность, обеспечивая более справедливое сравнение задач.

Навигация по RTEB в MTEB

Таблица лидеров RTEB доступна в разделе «Поиск» таблицы лидеров MTEB на Hugging Face.

Рисунок 3. RTEB в MTEB.

Помимо основного рейтинга, при просмотре таблицы лидеров RTEB важно учитывать еще несколько параметров:

  • Размеры встраивания: Это представляет длину вектора внедрения. Меньшие внедрения обеспечивают более быстрый вывод и меньшие затраты на хранение, тогда как более крупные могут фиксировать более тонкие взаимосвязи в данных. Цель состоит в том, чтобы сбалансировать семантическую глубину и вычислительную эффективность.
  • Максимальное количество токенов: Это максимальное количество токенов, которые можно конвертировать в одно вложение. Это зависит от структуры ваших данных и стратегии фрагментирования. Большие ограничения на токены позволяют встраивать более длинные текстовые сегменты.
  • Количество параметров (если доступно): представляет размер модели. Большее количество параметров обычно коррелирует с более высокой точностью, но также с большей задержкой и потребностями в ресурсах. Собственные модели могут не раскрывать точные размеры, но часто предоставляют такие варианты, как «маленький», «облегченный» или «большой», с разными ценами в соответствии с вашими потребностями.

Подмножества RTEB доступны для разных областей и языковых категорий, что позволяет получить четкое представление о производительности каждой модели в конкретных областях. Доступ к ним можно получить в разделе «Поиск» MTEB на Hugging Face.

RTEB — это важный шаг вперед в оценке встраивания моделей для поиска. Гибридное сочетание общедоступных и частных наборов данных для предотвращения переобучения, а также ориентация на реальные корпоративные домены и многоязычный охват делают его более точным и практичным инструментом для разработчиков, оценивающих различные модели внедрения.

MongoDB со штаб-квартирой в Нью-Йорке — это компания, предоставляющая платформу данных для разработчиков, которая дает новаторам возможность создавать, трансформировать и разрушать отрасли, раскрывая возможности программного обеспечения и данных. Узнайте больше Последние новости MongoDB ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Тибо Гурдель — технический менеджер по маркетингу продуктов в MongoDB, где он занимается интеграцией MongoDB с платформами искусственного интеллекта для поддержки и ускорения внедрения разработчиков. Имея опыт работы в области обработки данных, интеграции и прикладного искусственного интеллекта, Тибо привносит практический опыт… Читать далее от Тибо Гурделя

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *