Mooncake предлагает богатую транзакционную обработку Databricks

Всем этим агентам искусственного интеллекта, которые вскоре будут скитаться, потребуются свежие данные, что заставляет сообщество платформ данных срочно задуматься о том, как лучше внедрить аналитику непосредственно в процессы принятия решений.

В октябре Databricks незаметно приобрела технологию, которая станет важной частью новой платформы Lakebase для агентов искусственного интеллекта: Mooncake, единый пакет, который поддерживает как обширную обработку транзакций, так и быстрый столбчатый анализ.

Пункт продажи? Нет конвейеров ETL, которыми нужно управлять. Изнутри самого PostgreSQL можно использовать данные для принятия решений о маршрутизации в процессе транзакции.

Lakebase — это бессерверная служба Postgres, интегрированная в платформу управляемых данных компании Lakehouse. Он оптимизирован для агентов ИИ (особенно собственных Agent Bricks компании).

Databricks приобрела бессерверного поставщика PostgreSQL Neon в мае за 1 миллиард долларов. Это дало компании транзакционную платформу на базе PostgreSQL, которая, по мнению Databricks, отделила вычисления от хранилища.

Следующий кусочек головоломки: Мункейк.

OLTP и OLAP: разорваны на части

Mooncake был разработан Mooncake Labs, стартапом трех бывших инженеров SingleStore с целью переосмысления того, как может работать объединенная система транзакционных и аналитических баз данных.

Традиционно системы транзакционных баз данных (OLTP) и системы аналитических баз данных (OLAP) работают отдельно друг от друга (и часто отдельными отделами) внутри предприятия.

Распространенным опасением было то, что время задержки обработки транзакций, которая должна быть быстрой, будет скомпрометировано некоторыми длительными и/или трудоемкими аналитическими заданиями, выполняемыми с большими наборами данных.

Итак, поместите сюда OLTP с его временем вставки в микросекунды, необходимым для быстрых транзакций; и система OLAP с ее способностью сканировать огромные таблицы для крупномасштабного анализа.

С тех пор это разделение стало обременительным. Потому что им нужно обмениваться данными.

«Пользователи вынуждены вручную связывать их изолентой со сложными и хрупкими конвейерами данных, на синхронизацию которых уходят часы, а иногда и на преобразование данных во что-то, что трудно читать», — объяснил соучредитель Mooncake Labs Ченг Чен на лекции в серии семинаров по будущим системам данных Университета Карнеги-Меллона.

Скорость сети и вычислительная мощность достигли такого уровня, что объединение OLTP и OLAP могло бы стать хорошей идеей, поскольку оно открывает совершенно новые возможности обработки транзакций.

OLTP и OLAP: вместе навсегда

Чен был одним из трех сооснователей компании SingleStore, которая предлагает одноименную систему баз данных гибридной транзакционной/аналитической обработки (HTAP) (ранее MemSQL).

Система распределенных баз данных SingleStore объединяет транзакционную и столбчатую аналитику как способ объединения этих двух типов хранилищ данных. Благодаря одному механизму он использует рабочую память для транзакционных строк и диск для хранения столбцов. Он хорошо масштабируется и может поддерживать несколько форматов, таких как JSON, полнотекстовый и векторный.

Но конструкция SingleStore монолитна, посетовал Чен. Поскольку он запускается как единый автономный механизм запросов, он должен конкурировать с лучшими из уже используемых механизмов OLTP и OLAP. А желающих внедрить совершенно новую систему баз данных просто для того, чтобы получить преимущества быстрого анализа свежих данных (для таких действий, как обнаружение мошенничества), относительно немного.

Mooncake Bridges PostgreSQL и движки Iceberg

Вместо того, чтобы пытаться создать «волшебный механизм» (слова Чена), который выполняет оба вида обработки, почему бы просто не воссоздать эту функциональность как функцию для существующих систем?

По словам Чена, Mooncake намеревался создать «компонуемую» гибридную систему баз данных.

Это платформа и набор новых функций, построенных на основе существующих систем OLTP и форматов OLAP.

Команда инженеров решила поддерживать PostgreSQL для транзакций из-за его безудержной популярности как системы баз данных с открытым исходным кодом.

Что касается аналитики, они использовали открытые форматы Lakehouse Apache Iceberg и Delta Lake (собственные Databricks), так что к данным в любом из этих форматов может получить доступ любой знакомый движок (DuckDB, StarRocks, Trino, Apache Spark).

Mooncake: не движок, а просто функция

Лунный пирог состоит из двух основных компонентов. Один («moonlink») — это слой реального времени поверх Iceberg, который позволяет «принимать данные за доли секунды».

Второй компонент («pg_mooncake») обеспечивает возможности HTAP для PostgreSQL, позволяя пользователям добавлять аналитические функции для принятия решений о маршрутизации транзакций.

Вместе они делают шаг вперед в бесконечном разрыве между транзакционными и аналитическими системами, создавая мост в мир новых возможностей быстрой аналитики. Агенты будут довольны.

Ознакомьтесь с выступлением Чена, чтобы подробно изучить технические проблемы, связанные с обеспечением правильной работы Mooncake как с Iceberg, так и с PostgreSQL:

ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Джоаб Джексон — старший редактор The New Stack, специализирующийся на облачных вычислениях и системных операциях. Он освещал вопросы ИТ-инфраструктуры и ее развития более 30 лет, в том числе работал в IDG и Government Computer News. До этого он… Подробнее от Джоава Джексона

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *