Векторные базы данных, которые часто хвалят как ключевой компонент новых архитектур, управляемых ИИ, имеют момент. Они играют важную роль в обеспечении семантического поиска и поиска информации в реальном времени, но фактически привлечение векторов и интерпретация результатов является проблемой.
Бен Гуткович, соучредитель и главный операционный директор Superlinked, объяснил: «Предприятия, очевидно, работают по структурированным данным, но есть много неструктурированных данных по объему. Когда вы создаете решение для поиска в реальном времени, вы хотите учитывать эти данные».
В этом заключается проблема.
Например, для компаний электронной коммерции это означает, что это означает не только описание и изображение продукта, но и его цену, уровни акций и доступность в разных местах. По словам Гутковича, «текущие подходы в лучшем случае неоптимальны. Они либо жесткие, либо вообще не работают».
Одним из распространенных подходов является то, что Гуткович называет «строительным и врученным» подходом, где вы объединяете все структурированные и неструктурированные данные в одной и той же структуре текста (то есть в одной и той же «строке») и внедряете их в большую языковую модель (LLM). Но Гуткович указал, что этот подход строго ограничивает возможности фильтрации: «[For example]если я хочу расставить приоритеты, которые у меня есть, у меня есть значительный запас, этого невозможно сделать ».
Новый способ поиска вектора питания
Чтобы преодолеть эту проблему и реализовать весь потенциал векторного поиска, Гуткович указал на чрезмерного связывания в качестве ответа.
SuperLinked-это структура Python и облачная инфраструктура, предназначенная для того, чтобы помочь инженерам искусственного интеллекта объединить структурированные и неструктурированные данные для создания высокопроизводительных приложений поиска и рекомендаций. В частности, он должен позволить разработчикам создавать, управлять, обновлять, удалять и иным образом поддерживать векторные встраивания, что в конечном итоге позволяет им получить контекстуально релевантные результаты.
Или, как Гуткович просто описал это: «Мы решаем поиск информации».
Для этого требуется сначала понять, какие данные необходимы для получения наилучших результатов, а затем разработка алгоритма для достижения этих результатов. «В основном, в двух словах, мы позволяем вам создавать схему данных, соответствующую вашим данным. Затем вы подключаете свои источники данных, компилируете в облако и получаете API для подключения к вашему приложению», — пояснил Гуткович.
Рекомендационные системы
Гуткович говорит, что основание Superlinked в 2020 году было для него естественным следующим шагом, так как он имел свой многолетний опыт улучшения рекомендаций со структурированными данными.
Будучи бывшим руководителем отдела развития бизнеса в Easycar Club, Гуткович сказал, что он помог пройти простые, ориентированные на цену и местоположение поиск и превратить его в более сложный механизм, способный учитывать более разнообразные атрибуты.
Когда он встретил Даниэля Свонава, соучредителя и генерального директора Даниэля, Гуткович сказал, что у него была аналогичная история работы на рынке сообществ: «Мы решили объединиться и создать эту систему рекомендаций в качестве решения для обслуживания… позволяя людя [with] API, чтобы выдвинуть данные и вытащить рекомендацию из системы ».
Электронная коммерция была первой очевидной подходящей для их решения.
Предположим, что пользователь посещает веб -сайт, чтобы купить обувь. «Несмотря на то, что в прошлом они, возможно, покупали куртку, вы не хотите показывать им больше курток, если они ищут обувь», — сказал Гуткович. «Вы хотите показать им в режиме реального времени самые важные результаты». Именно здесь онлайн-компонент SuperLinked вступает в игру для обработки запросов в реальном времени и обновлениях в реальном времени.
Но после того, как пользователь купил обувь и пошел дальше, работа не выполнена. «Вы хотите нормализовать [the session]- продолжает он. «Вы не хотите, чтобы они видели обувь… в следующий раз, когда они придут на ваш сайт». Здесь вступает компонент пакетной обработки. «После окончания сеанса он учитывает всю историю и выравнивает вес в соответствии с общей историей, а не только текущей сессией»,-объясняет он.
Таким образом, SuperLinked позволяет персонализированный поиск, который может развиваться с каждым пользовательским сеансом. Несмотря на то, что он был эффективным, это было лишь предшественником для сверхвязывания, который существует сегодня.
Новое рост нагнетателей финансирования
После того, как CHATGPT был выпущен, все изменилось: «Внезапно все хотели работать с векторными вставками», — вспоминает Гуткович.
С Chatgpt появился новый интерес к семантическому поиску, контекстуальному пониманию и поиску информации в реальном времени-все они полагаются на векторные встраиваемые и эффективные поиски вектора. В этот момент SuperLinked уже создал внутреннюю систему для объединения структурированных и неструктурированных данных и создания соответствующих рекомендаций в реальном времени. Для многих предприятий, стремящихся использовать LLMS, но изо всех сил пытаясь интегрировать структурированные данные для уточнения рекомендаций, SuperLinked, казалось, уже имел решение.
Это докажет значительный поворотный момент для стартапа.
В марте 2024 года SuperLinked объявил о семенном финансировании в размере 9,5 млн. Долл. сша во главе с Index Ventures и Tomasz Tunguz. Перед семенем SuperLinked была небольшой командой из восьми человек. Теперь они насчитывают более двух десятков. «Мы наняли экспертов в пространстве — инженеров машинного обучения, ученых данных.… Идея состояла в том, чтобы создать большую команду», — объясняет Гуткович.
Это не все финансирование. Команда также решила развязать сверхвязывание, как это было, и расширить ее за пределы варианта использования системы рекомендаций. «Теперь вы можете использовать его в различных случаях использования», — продолжает он, — поддерживая любую векторную базу данных [you] Может захотеть использовать любой источник данных ». В рамках этого расследования и расширения, SuperLinked также построил всю пакетную платформу для работы в масштабе.
Глядя в будущее: демократизация ML
На горизонте много для рамки.
Поигрыватель Поигрывателя (RAG)-один из популярных новых вариантов использования. Например, для внутреннего поиска предприятия SuperLinked может помочь гарантировать, что только самые релевантные данные превращаются в LLMS. Обнаружение мошенничества — это еще одно пространство, где структура может быть полезна. С каждой финансовой транзакцией происходит обилие структурированных и неструктурированных данных; SuperLinked может помочь операционным группам отфильтровать все эти данные в помещение рискованных транзакций, с минимизацией ложных срабатываний.
Использование векторных внедрений для поиска питания и улучшения рекомендаций не обязательно является новым, но до сих пор усыновление в основном ограничивалось техническими гигантами из -за ограниченного доступа к инструментам. Упрощав поиск в вектор, SuperLinked стоит разблокировать масштабируемый семантический поиск в реальном времени для всех предприятий. По словам Гутковича, все это часть миссии команды по демократизации машинного обучения: «Сейчас векторный поиск теперь настолько популярен… и с достижениями в LLMS и общих моделях ИИ, мы верим [Superlinked] может помочь разработчикам создать приложения ML, не понимая науку о данных или MLOP ».
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом.