Архитектура векторной базы данных Pinecone Recamps для приложений ИИ

Во вторник Pinecone объявила версию следующего поколения своей бессерновой архитектуры, которая, по словам компании, предназначена для лучшей поддержки широкого спектра приложений для искусственного интеллекта.

С появлением ИИ облачный поставщик базы данных векторных данных заметил изменение в том, как используются его базы данных, объяснил главного сотрудника по технологиям Рам Срихарша. В недавнем сообщении, объявляющем об изменениях архитектуры, Шрихарша сказал, что более широкое использование приложений ИИ привело к росту спроса:

Рекомендовавшие системы, требующие 1000 запросов в секунду;
Семантический поиск в миллиардах документов; и
Агентство ИИ, которые требуют миллионов независимых агентов, работающих одновременно.

Короче говоря, Pinecone пытается обслуживать разнообразные, а иногда и противодействие потребностям клиентов. Среди различий заключается в том, что в поисках генерации (RAG) и агентских рабочих процессов ИИ, как правило, более спорадические, чем семантический поиск, отметила компания.

«Они очень отличаются от семантических вариантов использования поиска», — сказал Шрихарша новому стеку. «В этих новых случаях использования вы видите, что фактические рабочие нагрузки очень колючие, так что это противоположна предсказуемой рабочей нагрузке».

Кроме того, корпус информации может быть на самом деле довольно маленьким — от нескольких документов до нескольких сотен документов. Еще большие нагрузки разбиты на то, что Pinecone называет «пространствами имен» или «арендаторами». По его словам, в каждом арендаторе количество документов может быть небольшим.

Это требует совершенно другого вида системы, чтобы иметь возможность эффективно обслуживать это, добавил он.

Архитектура на основе POD

Около четырех лет назад PineCone начала выставлять публичную версию своей векторной базы данных в архитектуре на основе POD.

Архитектура на основе POD-это способ организации вычислительных ресурсов, где «POD» представляет собой группу специальных компьютеров, тесно связанных вместе, чтобы функционировать как единый блок. Он часто используется для облачных вычислений, высокопроизводительных вычислений (HPC) и других сценариев, где масштабируемость и управление ресурсами являются основными проблемами.

Это сработало, потому что традиционно Sriharsha объяснил, что Sriharsha пояснил, что рекомендованные системы использовали «сборку раз в строительстве и служат многим».

«Часто векторные индексы для рекомендаций рабочих нагрузок будут построены в режиме партии, заняв часы», — написал он в блоге. «Это означает, что такие индексы будут часами устаревшими, но также позволяет тяжелая оптимизация индекса порции, поскольку его можно рассматривать как статическое».

Без сервера архитектура

Семантический поисковый рабочие нагрузки приносят разные требования, продолжил он. Как правило, они имеют больший корпус и требуют предсказуемой низкой задержки — даже если их пропускная способность не очень высока. Они, как правило, широко используют метаданные фильтры, и их рабочие нагрузки больше заботятся о свежесть, то есть ли индексы базы данных отражают самые последние вставки и удаления.

Агентные рабочие нагрузки все еще различны, с небольшим до средним размером корпорациями менее миллиона векторов, но множество пространств имен или арендаторов.

Он отметил, что клиенты, управляющие агентскими рабочими нагрузками, хотят:

Верный векторный поиск из коробки не становятся экспертами по поиску векторов;
Свежесть, эластичность и способность принимать данные без ограничений системы, пересмотреть и изменять размер; и
Предсказуемые, низкие задержки.

Срихарша сказал, что поддержка, которая требует без серверной архитектуры.

«Это было очень успешным для этих тряпичных и агентских вариантов использования и так далее, и это приводило к большой экономии средств для клиентов, и это также позволяет людям управлять вещами в крупном масштабе так, как они не могли сделать раньше», — сказал он.

Конвергенция по одному подходу

Но теперь PineCone поддерживал две системы: архитектура на основе POD и бессерверная архитектура. Облачный провален начал смотреть на то, как он может сходиться с двумя способами, чтобы предложить клиентам лучшее из обоих.

«Они по -прежнему не хотят иметь дело с размером всех этих систем и всей этой сложностью, поэтому они могут извлечь выгоду из всех тонкостей без серверов, но им нужно что -то, что позволяет им выполнять масштабные рабочие нагрузки», — сказал Шрихарша. «Это означало, что мы должны были выяснить, как сблизить архитектуру POD в без сервера и иметь все преимущества без сервера, но в то же время сделать что -то, что позволяет людям запускать эти очень разные рабочие нагрузки».

Объявление во вторник стало кульминацией месяцев работы по созданию одной архитектуры для удовлетворения всех потребностей.

Этот подход следующего поколения позволяет PineCone поддерживать экономически эффективное масштабирование до 1000+ QP-или через обеспеченную пропускную способность чтения, высокопроизводительную индексацию для более высокого качества извлечения и миллионы пространств имен на индекс для поддержки массовых вариантов использования.

Изображение через сообщение в блоге Рама Срихарши

Он включает в себя следующие ключевые инновации в векторных базах данных Pinecone, согласно сообщению Срихарши:

Структурированная индексация журнала. Структурированная логарифмическая индексация (LSI)-это метод хранения данных, который приоритет скорости и эффективности записи, которую PineCone адаптировала и применяется к их векторной базе данных;
Новый подход свежести, который маршрутирует все считывается через Memtable (структура в памяти, которая содержит самые последние написанные данные);
Предсказуемое кэширование, в котором индексная часть файла (Pinecone вызывает эти плиты), всегда кэшируется между локальным SSD и памятью, что позволяет Pinecone «служить запросам немедленно, без необходимости ждать периода прогрева для холодных запросов»;
Рентабельный при высоких QP; и
Метаданная фильтрация на основе дисков, которая является еще одной новой функцией в этом обновлении архитектуры без сервера.

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Loraine Lawson — ветеран -репортер, который в течение 25 лет освещал технологические проблемы от интеграции данных до безопасности. Прежде чем присоединиться к новому стеку, она работала редактором Banking Technology Site Bank Automation News. Она … читайте больше от Лорейн Лоусон

Разработка сайтов в Гомеле

Добавить комментарий Отменить ответ

Похожие записи

Обещания агентского ИИ и как обойти проблемы

Создатель Vite на унифицированном javaScript Toolchain и Vite+

Как сгенерировать «AI» из базы данных: Брюс Момжян

AWS решает проблему искусственного интеллекта «слишком много информации»

Go Experts: «Я не хочу поддерживать сгенерированный AI код»

Один дает отключить Devs построить один раз, развернуть Интернет и нативные приложения

Lambda Labs HyperScaler фокусируется на разработчике ИИ

Каково будущее инженерии платформы?

Новая небольшая модель ИИ позволяет разработчикам экспериментировать на iOS

Red Hat Ansible и Hashicorp Terraform будут собраться вместе

Почему «скучная» база данных — ваша секретная суперсила искусственного интеллекта

Проект обнимающего лица раскрывает секреты DeepSeek-R1

Вам тоже может быть интересно:

Разработка сайтов в Гомеле