В недавнем исследовательском отчете аналитической фирмы Trail of Bits подчеркивается некоторые ключевые различия, представляющие критические соображения для современного извлечения информации — между Opensearch и Elasticsearch. OpenSearch и открытый поисковый проект были созданы Amazon; Поисковая и аналитическая платформа Opensearch была выведена от Elasticsearch.
Предложения были оценены с помощью эталона OpenSearch, который сравнивает решения в соответствии с различными рабочими нагрузками. В отчете указывается, что OpenSearch v2.17.1 (последняя версия на момент проведения исследования) была на 11 процентов быстрее на рабочей нагрузке Vectorsearch, чем Elasticsearch v8.15.4.
Это также показывает, что OpenSearch был в 1,6 раза быстрее при рабочей нагрузке BIG5. Эти результаты были обнаружены при агрегировании среднего геометрического среднего по запросам каждого решения. Обе платформы с тех пор были обновлены до других версий.
Тропа битов решил осветить результаты этих рабочих нагрузок в недавнем блоге отчасти из -за их значимости для предприятия. По словам Эвана Даунинг, старшего инженера по безопасности Trail of Bits, AI/ML и одного из подготовителей отчета, «ваша общая рабочая нагрузка Big5, которая удовлетворит большинство пользователей, и рабочая нагрузка Vectorsearch будет оцениваться с вещами, которые связаны с машинным обучением и векторными вкладками».
Рабочая нагрузка Vectorsearch напрямую коррелирует с генеративными приложениями ИИ и приложениями поиска сходства вектора. По словам директора по инженерному инженерии Trail of Bits Уильям Вудрафф, рабочая нагрузка BIG5 включает в себя «такие вещи, как поиск терминов по базе данных продуктов».
Экспертиза различных подходов Opensearch и Elasticsearch Invoke для встречи с этими рабочими нагрузками, а другие в эталонном этапе Opensearch иллюстрируют некоторые из наиболее полезных возможностей в поисках сегодня.
Несколько поисковых систем
Хотя решения были оценены с помощью эталона OpenSearch, «Насколько мне известно, эталонный балл OpenSearch был выведен из бендмаркинга Elasticsearch», — сказал Даунинг. Несмотря на то, что сам OpenSearch был выведен от Elasticsearch, в отчете указывается, что сравнение между двумя решениями не яблоки с яблоками.
Одним из главных различий является то, что во время исследования (большинство из которых произошло в период с сентября по декабрь 2024 года), OpenSearch поддержал различные поисковые системы, в том числе те, которые предназначены для векторных встраиваемых случаев использования поиска, в то время как Elasticsearch поддерживал только один, Apache Lucene. Пользователи OpenSearch могут воспользоваться Lucene, Facebook AI Searnity Search (FAISS) и неметрической космической библиотеки (NMSLIB).
Это соотношение трех к одному двигателям между OpenSearch и Elasticsearch могло повлиять на благоприятные результаты OpenSearch в рабочей нагрузке VectorSearch.
Алгоритмы и количественные определения векторного поиска
Различные поисковые системы, оцениваемые в эталоне, используют различные подходы к поиску информации, что не является монолитным процессом. Согласно Даунингу, Lucene, Faiss и NMSLIB «поддерживают различные алгоритмы для поиска вектора, а также различные количественные определения. Таким образом, в основном вы можете думать об этом как о сжатии для размера набора данных и требованиях, которые требуются пользователям этих алгоритмов».
Методы квантования являются одним из факторов, которые влияют на производительность баз данных векторного поиска. Сжатие, на которое ссылается Даун, может повлиять на стоимость использования векторных систем поиска, особенно с точки зрения хранения. Хотя между этими тремя двигателями существует множество различий, для фактического эталона было уместно, что «каждому из этих двигателей рабочей нагрузки требуется разные параметры для работы, основываясь на различных требованиях API и других вещах», сказал Даунинг. «Итак, когда мы сравниваем все это на линии, мы сравниваем OpenSearch с Lucene, OpenSearch с NMSLIB, OpenSearch с Faiss и Elasticsearch с Lucene».
Умные метаданные фильтрации
Из трех, Лусене может быть наиболее широко известным двигателем. Это библиотека поисковой системы с открытым исходным кодом, управляемая Фондом Apache. Для решений, у которых есть несколько двигателей на выбор, как это делает OpenSearch, есть некоторые приложения, для которых Lucene особенно уместен. «Насколько я понимаю, Lucene, как правило, является хорошим вариантом для небольших развертываний», — прокомментировал Даунинг.
Одним из наиболее заметных аспектов Lucene является его фильтрация метаданных. Как правило, пользователи могут фильтровать результаты поиска векторных баз данных на основе метаданных о фактических встроках. Есть варианты фильтрации метаданных перед поиском и после поиска, что может повлиять на общее качество результатов.
Различие с Lucene заключается в том, что оно «предлагает некоторые преимущества, как и Faiss, с некоторыми вещами, такими как интеллектуальная фильтрация, где стратегия оптимальной фильтрации, такая как предварительная пленка, или после фильтрации, или точные K-ближайшие соседи, автоматически применяется в зависимости от различной ситуации»,-сказал Даунинг. FAISS-это библиотека программного обеспечения (с небольшим количеством сторонних зависимостей) для поиска сходства вектора и других приложений, которые лежат в основе использования для генеративных моделей. NMSLIB — это векторная поисковая библиотека и набор инструментов для оценки методов поиска сходства. «NMSLIB и FAISS построены в основном для крупномасштабных вариантов использования»,-сказал Даунинг.
Big5 Workload
Рабочая нагрузка BIG5 иллюстрирует, насколько далеко зашел поиск информации сегодня. Он охватывает аспекты текстовых запросов, сортировки, гистограмм даты, запросов диапазона и терминов. Эти возможности полезны для поиска с помощью документов, информации о продукте и клиентах, структурированных и неструктурированных данных и многого другого.
OpenSearch превзошел Elasticsearch во всех категориях BIG5 и был в 16,55 раза быстрее, чем Elasticsearch в компоненте гистограммы даты. Особенности гистограммы даты предоставляют временные агрегации. «Можно сказать, что это своего рода хронологическая группировка, где вы разделяете набор данных на ведра или интервалы», — прокомментировал Даунинг. «Так, например, мы хотим сказать, что дайте мне все документы с определенного дня в этом месяце».
Текстовые запросы частично основаны на лексических или ключевых словах, возможностях поиска и обычно применяются к вариантам использования с участием идентификаторов пользователей, адресах электронной почты или имен. Запросы диапазона «основаны на определенном диапазоне значений в данном поле», — объяснил Даунинг. С этими возможностями пользователи могут получить результаты из набора данных, в котором, например, температура составляет от 70 до 85 градусов. Сортировка позволяет организациям заказывать результаты запросов в соответствии с любым количеством факторов, которые могут включать хронологический, числовой или алфавитный порядок.
Значимые выводы
Для пользователя предприятия наиболее значимых выводов из недавнего эталона между Opensearch и Elasticsearch не связаны с производительностью этих решений и больше связаны с их возможностями. В отчете указывается, что все платформы поиска векторов не совпадают. Они включают в себя различные двигатели, которые поддерживают соответствующие функции.
Некоторые из этих различий относятся к библиотекам для векторного встраивания поиска и ключевых соображений, таких как фильтрация метаданных, а также универсальность для квантования и сжатия. Более того, возможности для сортировки результатов поиска, агрегации терминов поиска, запросов диапазона выпуска и других аспектов рабочей нагрузки BIG5 также достойны рассмотрения при оценке платформ поиска и аналитики — и их производительности.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Jelani Harper работал аналитиком, руководителем исследований, консультантом по информационным технологиям и журналистам более 10 лет. В течение этого времени он помогал бесчисленным поставщикам и публикациям в области управления данными, разрабатывать, сочинять и поместить … Подробнее от Jelani Harper