Новый OLTP: Postgres с отдельным вычислением и хранением

Застряли ли базы данных онлайн -обработки транзакций (OLTP)?

Что ж, базы данных OLTP тесно связаны, сказал соучредитель DataBricks Рейнольд Синь в своем основном доме в начале этого месяца на Summit Databricks Data + AI в Сан-Франциско. Такие базы данных являются монолитными, объединяющими вычислительные и хранения в крупных машинах, что приводит к различным проблемам, включая чрезмерное обеспечение, проблемы масштабирования, проблемы с производительностью и ряд сложностей систем.

В новом продукте Lakebase от Databricks вычисления и хранение разделены. Lakebase слабо связана, что открывает возможности для переосмысления транзакционных баз данных и использования агентского ИИ для достижения того, чего не могут.

«Если вы посмотрите на базы данных OLTP, которые вы запускаете сегодня, будь то рекламные ролики или проприетарные системы, такие как базы данных Oracle или с открытым исходным кодом, такие как MySQL, Postgres, они выглядят более или менее так же, как и в 90 -х годах», — сказал Синь на мероприятии DataBricks.

Ольтрализовые базы данных, рассматриваемая как тяжелая инфраструктура, которая требует ручного вмешательства и технического обслуживания, действует на неуклюжие и оказывается трудно масштабировать.

Так что же делать разработчику?

Является ли Databricks на что-то, сосредоточившись на потоковых данных-и тем самым делая их лучше подходящими для искусственного интеллекта и агентских архитектур, обрабатывая данные, такие как разработчики, обработали код?

Я обсудил эту тему на прошлой неделе с Сандживом Моханом, независимым аналитиком на конференции DataBricks. Мы говорили о Lakebase и о том, как его подход позволяет масштабировать масштабирование с помощью Postgres. Новая услуга частично основана на технологии, разработанных Neon, приобретенной компанией DataBricks.

Томас Гаувин, разработчик CloudFlare, подробно описанный в своем личном блоге, как Neon использует Postgres для реализации «пользовательской системы хранения (написанной в Rust), которая перехватывает вызовы для обновления страниц в блочном хранилище и хранит эти обновленные страницы на хранилище облачных объектов вместо диска компьютера. Этот развязка обеспечивает независимое масштабирование компонента и хранилища».

Сьюзен Холл из нового стека взяла интервью у Никиты Шамгунов, соучредителя и генерального директора Neon, в начале 2024 года. Он сказал, что, хотя обычно используется в репозиториях GIT, ветвление никогда не подходило для баз данных.

По словам Шамгунов, ветвирование доступно с Neon, хотя это произошло из -за много тяжелой работы, сказал Шамгунов и превратился из функции инфраструктуры до инструмента рабочего процесса разработчика.

«Требуется архитектура следующего поколения, архитектуру хранения, чтобы включить ветвление, потому что ключевой особенностью ветвления является копия на записи»,-сказал он. «Это то, что имеет GIT. Например, когда вы создаете филиал, вы в основном перемещаете несколько указателей. И это дает вам изолированную полную копию ваших данных в отдельной ветви».

DataBricks видит, как с Neon он может обеспечить технически превосходный способ достижения потоковой передачи данных в реальном времени, что позволяет также преобразовать данные в режиме реального времени. DataBricks может использовать свою платформу разведки данных, основанную на архитектуре Lakehouse, для обеспечения сквозного опыта.

«Почему они занимаются этим бизнесом?» Мохан спросил. «Владение аналитическими данными недостаточно. Ключи к королевству проживают на оперативной или транзакционной стороне. Самые важные данные в мире — в Salesforce, это в SAP, находятся в группе других ERP».

Специально построено для ИИ

По словам Синя, традиционные методы интеграции баз данных являются сложными и не подходят для ИИ. Задача заключается в интеграции аналитики и ИИ с транзакционными рабочими нагрузками.

Подумайте, что разработчики будут делать при добавлении функции в кодовую базу, сказал Синь в своем ключевом адресе на саммите данных + AI. Они создали бы новую ветвь кодовой базы и внесут изменения в новую филиал. Они использовали эту ветвь, чтобы проверить ошибки, выполнять тестирование и так далее.

Синь сказал, что создание нового филиала является мгновенной операцией. Что такое эквивалент баз данных? Вы только клонируете свои производственные базы данных. Это могут занять дни. Как вы настраиваете безопасные сети? Как вы создаете трубопроводы ETL и данные журнала от одного к другому?

Lakebase берет концепцию баз данных OLTP и выводит ее на голову.

«В первую очередь, он основан на Postgres с открытым исходным кодом», — сказал Синь. «И во-вторых, он основан на новом отделении хранилища из вычислительной архитектуры, которая фактически позволяет современному рабочему процессу разработчика».

Объяснение DataBricks: хранение и вычисление используйте отдельные кластеры. Системы могут масштабироваться для одновременных пользователей и больших размеров данных. Форматы хранения открыты. Например, Parquet предоставляет API для инструментов и двигателей, включая машинное обучение (ML) и библиотеки Python/R.

Эластичное масштабирование позволяет тысячам рабочих нагрузок в жизни по низкой цене, используя недорогие постгресные экземпляры.

«Отделение хранилища от вычислительной архитектуры также имеет встроенную возможность копирования на записи, так что мы можем мгновенно развеять базу данных»,-сказал Синь. «Требуется меньше секунды, чтобы создать целый клон базы данных, и это включает в себя большую часть данных и схемы базы данных.

«И из-за возможности копирования, вам на самом деле не нужно платить за дополнительное хранилище, если вы не начнете вносить изменения, и только сами изменения будут нести дополнительную плату, потому что под капотом все они имеют одинаковое хранилище».

Потоковая трансляция меняет потребности в корпоративных данных

Мохан сказал мне, что потоковая передача является первоклассным гражданином на предприятии. Разделение вычислений и хранения имеет значение. Мы приближаемся к эпохе, когда приложения будут масштабироваться бесконечно, как с точки зрения количества экземпляров, так и их масштабируемых возможностей. И это приводит нас к новым вопросам о том, как мы начинаем думать об оценке, наблюдаемости и семантике.

Точность имеет значение. Язык является семантическим по своей природе, а это означает, что существует необходимость в большем количестве возможностей для оценки достоверности вывода ИИ.

По словам Мохана, ADP может иметь лучшие данные в мире заработной платы, но тогда эти данные должны быть обработаны через ETL в аналитическое решение, как DataBricks. Затем наступает аналитика и работа по науке о данных. Клиент должен выполнить значительный объем работы по разработке данных и подготовку.

DataBricks и другие, такие как снежинка, не хотят быть на приемном конце данных. Они хотят обслуживать клиентов, которые, например, нуждаются в отчетах и ​​требуют, чтобы они были доставлены быстро. Трудно сделать это с системами, которые у них сейчас есть.

По словам Мохана, взять, например, отчетность Комиссии по ценным бумагам и биржам. У клиента есть приборная панель или некоторые отчеты. Эти клиенты должны знать деловую линию этих данных.

«Я хочу знать, откуда возникли эти данные?» Мохан сказал: «Как это трансформировалось? Как это было каталогизировано? Как это было интегрировано с другими частями данных, прежде чем я запустил приборную панель?

«Итак, теперь, если DataBricks владеет всем жизненным циклом данных от создания в любом случае до потребления, то они владеют данными. Он никогда не оставляет экосистемы DataBricks».

«Разрушение хранения и вычисления»

Итак, как это работает?

Frederic Lardinois из нового стека писал, что Lakebase сочетает в себе знакомство и расширяемость Postgres, масштабируемость современной бессерстной архитектуры, современного опыта разработчика, с унифицированным опытом данных Lakehouse Databricks и операционной зрелостью платформы для разведки данных компании.

Мохан предположил, что покупка DataBricks Neon предлагает DataBricks преимущество. «То, что они говорят, это то, что, используя свое неоновое приобретение, теперь они могут иметь любое приложение для фронта, сидящее на вершине», — сказал он. «В будущем, это может быть агентом; это ставка, но агенты являются новыми. Таким образом, этот агент собирается написать данные в формат файла открытого стандарта, например, паркет с айсбергом, дельтой или Hudi сверху».

Parquet, Aceberg, Delta Lake и Hudi — все проекты Apache.

«А потом у вас будет вычислительный двигатель», — сказал Мохан. «Так что это полная дезагрегация хранения и вычисления».

Синь сказал, что разделение хранения и вычислений имеет решающее значение в эпоху агентского кодирования и ИИ. С агентами ИИ у предприятия будут тысячи агентов ИИ, даже миллионы.

«Агенты ИИ действуют как их собственные инженеры», — сказал Синь. «Они проводят эксперименты на вашей кодовой базе, возможно, добавляют новые функции. У вас может быть даже несколько агентов искусственного интеллекта, добавляя новые функции, добавляя одну и ту же функцию, и у вас есть судьи, чтобы определить, какая функция является наилучшей для реализации. Каждый агент искусственного интеллекта может фактически добавить свою собственную филиал кода, но также и свои собственные базы данных, не при целях эксперимента».

По словам Синя, базовый уровень хранения также позволяет легко синхронизировать данные при очень высокой пропускной способности от одного хранилища объектов в другой хранилище объектов — поэтому от одного озера данных до другого озера данных, от Лейкхауса до Лейкбазы.

В заключение я спросил Мохана: «Где вы нас сейчас видите?»

Он ответил: «Одна вещь, которая начинает немного торчать, — это потребность в оценке».

И это сводится к семантике ИИ — языковых нюансов — которые потребуют более глубокой оценки.

«Самой большой проблемой, которые сталкиваются с клиентами, является надежность», — сказал Мохан. «Можете ли вы доверять этим моделям? Они будут точными? Семантика станет действительно важной».

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Алекс Уильямс является основателем и издателем нового стека. Он давний технологический журналист, который занимался TechCrunch, Siliconangle и тем, что сейчас известно как ReadWrite. Алекс был журналистом с конца 1980 -х годов, начиная с … Подробнее от Алекса Уильямса

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *