Одним из грязных маленьких секретов о крупных языковых моделях (LLMS) является то, что они не могут легко интерпретировать структурированную информацию, полученную в хранилищах данных и базах данных (или даже файлах CSV, на самом деле).
Да, все это работает над созданием схем и структурированных наборов данных, чтобы отразить бизнес -процессы — все это целесообразно, когда дело доходит до питания LLM, во всяком случае.
Теперь Кумо, стартап Сан-Франциско, выходит за рамки LLM, чтобы предложить большую обнаруженность в структурированных и полуструктурированных данных, основе предприятия.
Компания консультировала новую модель, основанную на новой технике машинного обучения (ML) под названием Relational Graph Transformers, которая «привносит те же элементы для предприятий, которые LLMS принесли текстовым», — сказала Ванджа Джосифовски, генеральный директор Kumo, в интервью на Snowflake Summit в начале этого месяца.
Kumo работает в качестве приложения для снежинок, поэтому он может работать против ваших таблиц данных снежинки. Вы также можете загрузить свои структурированные данные для анализа облачных сервисов компании.
Модель была разработана, чтобы сэкономить время на определении тенденций в структурированных наборах данных, как правило, работа по -прежнему выполняется в основном вручную учеными для данных. И, благодаря нейронным сетям на графиках, ему не нужно знать семантический контекст или даже схемы самих данных.
Этот подход может сократить время определения шаблона в двадцать раз или более, по сравнению с использованием магазина объектов или даже созданием собственной модели.
И это даже не требует LLM.
Проблема со структурированными данными
«Реальность такова, что наиболее ценные данные для подавляющего большинства компаний хранятся в структуре», — сказал Джосифовски. «Вот где сигнал».
Таблицы базы данных состоит из строк, каждая из которых является записью. Каждый столбец предназначен для указанного атрибута, а один столбец — первичный ключ, используемый для индексации. Иностранные ключи ссылаются на другие таблицы. Схема может быть задокументирована, или это не может. В любом случае это не было подключено к самим данным.
В то время разрыв данных в нескольких таблицах было очень эффективным по ряду причин: сохранить затраты на хранение, время поиска скорости и так далее. Но это не сделало никаких услуг.
«Эта пропасть все еще там, 20 лет спустя, для множества вещей», — сказал он.
Джосифовски начал свое исследование в IBM, а затем отправился в резиденции с Yahoo, а затем в Google, и был в Google примерно в то время, когда его коллеги выпустили известный документ о внимании 2015 года, который установил основу для Chatgpt, сосредоточив внимание на словах, чтобы предсказать следующие слова.
Это отлично подходит для неструктурированного текста или большей части текста, просто лежащего в Интернете.
«Данные хранилища и график — это то же самое для нас».
— Vanja Josifovski, генеральный директор Kumo
Понимание таблицы базы данных гораздо более сложнее для LLM, потому что информация, которую она должна была бы собрать какой -то контекст для данных, разбросана по разным таблицам, объяснил он.
«Попытка работать на семантическом уровне ненадежна», — сказал он.
Имя столбца может не иметь подшипника по разным причинам, что находится в самом столбце. Джосифовски также работал в какой -то момент в качестве технического директора Airbnb. Там, он вспомнил, у них были тысячи столбцов в базе данных, и все они имели лишь очень небольшие различия в их часто не поддаваемых именах. «Вы должны точно знать, какой вариант, чтобы иметь возможность создавать правильную аналитику», — сказал он.
Проблема в том, что после значительных инвестиций хранилища данных просто дают вам картину происходящего, но вы все равно должны определить шаблоны. Это работа многих ученых данных. Вот почему многие организации по -прежнему не получают рентабельность инвестиций от хранилища данных: работа не масштабируется.
«Вы должны донести данные в одну модель, и эта модель зависит от задачи»,-пояснил он.
Трансформаторы реляционных графов
Текст и изображения просты для обработки LLMS. Текст — это струны, а изображения — это матрицы, сказал Джосифовски.
До недавнего времени классификаторы изображений по -прежнему требовали ручного вмешательства для определения краев. Несколько лет спустя сверточные нейронные сети автоматизировали задачу, в основном запустив скользящее окно над изображением. И текст может быть расшифрован аналогичным образом.
И это в основном то, как работает подход Кумо. Он использует технику, называемую трансляционными графическими трансформаторами.
«Мы нашли способ учиться прямо из необработанных реляционных данных, [across] Несколько разных таблиц, без необходимости создавать функции или учебные наборы », — сказал Джосифовски. Это работает так же, как компьютерное зрение учится на сырых пикселях.
Как это работает? Думайте о своем хранилище данных как о графике.
«Каждая строка — это узел, каждое иностранное соединение первичного ключа — это ссылка», — пояснил он. Хранилище данных в одном миллиардах строк представляет собой график миллиарда узлов, который затем можно проанализировать на предмет новых моделей.
«Вместо того, чтобы посещать слова, мы посещаем узлы на графике», — сказал Джосифовски.
Что могут предсказать трансформаторы реляционных графов?
С трансляционными графическими трансформаторами человеку больше не нужно для идентификации сигнала.
Например, фирма электронной коммерции может предсказать отток, используя колонку всех ранее приобретенных продуктов. Нейронная сеть делает это без необходимости в каком -либо семантическом контексте.
«И с этим мы вырезали человека из петли. Нет необходимости кто -то вручную выяснять, где находится сигнал», — сказал он.
Чтобы пропустить некоторые общие шаблоны, компания предварительно обучила модель на хранилище данных на миллиард узлов, наполненной краем синтетическими данными из различных публичных наборов данных.
Добавление руки помощи было компонентом с открытым исходным кодом под названием Pytorch Geometric, который пишет и обучает графические нейронные сети.
Оттуда модель пришла к распознаванию ряда общих моделей, которые компания выделила, как отобразить эти сигналы с прогнозирующими результатами.
Во всяком случае, в предварительных тестах «результаты этих прогнозов лучше, чем когда квалифицированная докторская степень тратит время с традиционными методами для производства моделей», — заявил Джосифовски.
«Мы не ожидали, что это сработает это хорошо», — признался он.
Компания представляет технологию на своем веб -сайте. Вы можете загрузить набор данных, а затем задать прогнозирующие вопросы, на SQL-подобном языке, где вместо того, чтобы писать оператор SELECT, вы пишете предсказанный оператор.
Графики масштабирования сложно
Главная задача с графиками заключается в том, что их трудно масштабировать. В отличие от документов, нет естественных методов масштабирования, таких как Sharding. (И хотя он заимствует идеи из графических вычислений, трансформаторы реляционных графиков не требуют базы данных графиков, которая была бы слишком медленной для работы, отметил Джосифовски.)
У Кумо есть какой -то секретный соус для масштабирования графиков, а также довольно много капитала пота в настройку масштабируемой платформы.
Компания считается среди своих клиентов Reddit, Doordash и даже сама снежинки. Другая группа-самостоятельно, фирмы без множества мышц науки о данных, которые, тем не менее, хотят использовать прогнозирующие возможности.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Joab Jackson является старшим редактором нового стека, охватывающего облачные нативные вычисления и системы системы. Он сообщил об инфраструктуре и развитии IT более 25 лет, в том числе в IDG и государственных компьютерных новостях. До этого он … читал больше от Джоаба Джексона