От Spark SQL до декларативных трубопроводов в DataBricks

В свой первый день в DataBricks в 2013 году Майкл Армбруст — сотрудник № 9, начал кодировать Spark SQL.

Двенадцать лет спустя Armbrust, ныне выдающийся инженер, объявленный на ежегодном саммите Databricks Data + AI в июне, что компания открыла две свои платформные технологии Apache Spark. В новостях демонстрируется постоянное внимание DataBricks на создании Spark, проекта, который служил игрой компании с момента ее создания.

Компания DataBricks Matei Zaharia создала Spark в 2009 году в Калифорнийском университете, Amplab Беркли как платформы для распределенного машинного обучения. В начале 2010 года кодовая база была открыта, а в 2013 году проект стал частью Foundation Apache Software.

Spark предлагает распределенную обработку данных через вычислительные кластеры и координирующие рабочие нагрузки по нескольким узлам. Результат этой работы является основой того, что мы видим сегодня в предложениях DataBricks, начиная с первые дни Armbrust в компании.

Захария, наряду с генеральным директором Databricks Али Годси и Энди Конвински, Ионом Стоикой, Патриком Венделлом и Рейнольдом Синь, внесли свой вклад в Spark и сформировали DataBricks в 2014 году. Как активные участники Spark, команда коммерциализировала технологии, которые они создали для разработки основополагающей технологии DataBricks.

Их первый исследовательский проект стал тем, что мы знаем сегодня как Spark SQL. Названная Shark, названная в честь Spark и Apache Hive, технология обеспечивала лучшую производительность, чем Hive, благодаря лучшему запросу и кэшированию данных в памяти кластера. Возможно, самое главное, интегрированный SQL Shark, который привел к разработке Spark SQL, была доступна с Spark 1.0 в мае 2014 года.

DataBricks исторически представлялась как группа людей, которые начали проект Spark. Они подчеркнули простоту, получая лучшую ценность от данных и их корни с открытым исходным кодом.

За прошедшие годы компания открыла несколько своих платформных технологий.

  • 2014-2017: Вклад Apache Spark.
  • 2018: Mlflow.
  • 2019: Коалас и Дельта -озеро.
  • 2021: Дельта -совместное использование и первоначальный выпуск каталога Unity.
  • 2024: Каталог единства OSS и DBRX в 2024 году.
  • 2025: Spark декларативные трубопроводы и режим в реальном времени.

На саммите Data + AI в Сан-Франциско в прошлом месяце DataBricks Open поставлял свою декларативную службу трубопровода и технологии режима в реальном времени, что обеспечивает более простые возможности потоковой передачи данных с низкой задержкой.

Декларативные трубопроводы

Распределенный трубопровод ETL, первоначально известный как Delta Live Tables, превратился в декларативный трубопровод Lakeflow, который теперь открыт для Apache Spark. Структурированные потоковые возможности также появились в Spark в результате аналогичного процесса развития.

«Структурированная потоковая передача — мы построили эту команду, мы получили ее работу, прежде чем открыть его», — сказал Армбруст. «Delta, очень аналогично, это был продукт внутри DataBricks более полутора лет, прежде чем мы открыли его».

Структурированная потоковая передача использует высокоуровневый декларативный язык SQL, который понимает таблицы, столбцы, типы данных и схемы, а также функции, для обработки постоянно растущих входных таблиц. Когда инженер добавляет новые строки, запрос постепенно работает над данными, создавая новый ответ, но рассматривает только последние данные, которые появились с момента последнего обновления.

«Нет ничего, что сложный инженер не мог сделать с Spark, Spark SQL, структурированной потоковой передачей и дельтой вручную, которую вы можете сделать с декларативными трубопроводами», — сказал Армбруст.

Он добавил: «Декларативные трубопроводы позволяют вам сосредоточиться на интересной части, преобразовании данных, и это извлекает то, что я бы назвал недифференцированным тяжелым подъемом».

По словам Армбруста, команда DataBricks разработала Delta с учетом потоковой передачи. Он дает представление о возможности преобразования данных в нескольких таблицах, потребляя их и подталкивая их вниз по течению.

«Наши клиенты часто называют это архитектурой медальонов, где вы берете необработанные данные, вы приносите их в бронзу, вы делаете немного уборки, вы приносите их в серебро, а затем вы приводите его, наконец, золото», — сказал Армбруст.

«Золото — это таблицы, которые на самом деле имеют ответы для вашего бизнеса. Это все, что позволяет получить от бронзовых грязных данных до данных о золоте, а трубопроводы и потоковая передача — это то, что позволяет это. Delta — я думаю об этом как о узлах этого графа. И потому что оно изначально поддерживает переводы данных.

А путешествие во времени? Все это возвращается к тому, как данные рассказывают историю, сказал Армбруст. Журналы — это запись контента в таблицах с течением времени.

«Это больше не просто статическая коллекция данных», — сказал он. «Это живая и изменяющаяся сбор данных, где вы можете задать вопросы о том, что изменилось с течением времени».

И каталог Unity, также открытый исходный код, обеспечивает управление, в частности, благодаря богатым метаданным, что обеспечивает мелкозернистую фильтрацию, сказал Армбруст. Инженер может аннотировать столбцы и таблицы с описаниями. Помощник ИИ может прочитать эти комментарии и использовать эту информацию, чтобы помочь записать запросы по данным.

Mlflow — это еще одна основная часть, которая соответствует декларативным трубопроводам.

Результатом является то, что клиенты могут создавать сквозные данные и рабочие процессы искусственного интеллекта, используя только технологии DataBricks, в то же время получая выгоду от открытых стандартов и избегая блокировки поставщиков через фонд Apache Spark с открытым исходным кодом.

Что такое режим в реальном времени?

Декларативные трубопроводы полагаются на низкую задержку. Режим в режиме реального времени, также открытый источник данных DataBricks для Apache Spark, расширяет апертуру для рабочих процессов с низкой задержкой, включив структурированную потоковую передачу для оперативных вариантов использования, тем самым преобразуя способ обработки потоковых данных.

«Вместо того, чтобы запускать микро партии, где мы заранее решаем, какие данные будут обработаны, мы начинаем долгосрочные задачи, которые постоянно опрошат новые данные»,-сказал Армбруст. «И это означает, что мы можем обработать его немедленно».

Это снова показывает, почему потоковая передача теперь является первоклассным гражданином. Микробатч может привести к проблемам задержки, сложностям использования ресурсов, проблемам с качеством данных и трудностям в отладке.

DataBricks пробегает на быстрорастущем рынке и сталкивается с большой конкуренцией. VentureBeat имеет всесторонний взгляд на открытые декларативные трубопроводы DataBricks, ссылаясь на снежинок и то, как он интегрируется с Apache NIFI для централизации любых данных из любого источника в свою платформу.

Подход DataBricks перекрывается с несколькими поставщиками.

Google имеет поток данных Google Cloud. Amazon Web Services предлагает клей AWS, а Microsoft предоставляет Azure Data Factory — все из которых являются возможностями преобразования рыночных данных. Есть также поставщики, такие как FiveTran и Airbyte, которые также сотрудничают с DataBricks. Как уже упоминалось, Snowflake также является конкурентом с DataBricks.

Оставаясь верным корням с открытым исходным кодом

DataBricks подтверждает, почему компании с открытым исходным кодом делают так хорошо, когда они остаются приверженными своим корням, а также создают запатентованную платформу, которая ускоряет рост.

Создание проекта с открытым исходным кодом с нуля, превращая его в платформу и использование его для установки направления для целых данных экосистемы, чтобы принять крупнейшие монолитные компании -разработчики программного обеспечения за последние 20-30 лет.

Многочисленные компании потерпели неудачу в своем путешествии с открытым исходным кодом. Это даже не стоит упоминать ни о каком имени. Их истории все очень похожи. Они сталкиваются с давлением из -за множества факторов, становятся собственности и борются за то, чтобы сохранить свое положение в обществе.

Создатели Spark все еще связаны с DataBricks. Давно сосредоточенная на аналитике данных, DataBricks разработал ряд продуктов, установившись партнерства и сделал приобретения для удовлетворения потребностей тех, кто создает трубопроводы данных, а также тех, кто использует их для преобразования данных.

Декларативная среда хорошо известна, как и необходимость сокращения задержки, особенно в том, что сообщества с открытым исходным кодом, работающие над сложными трубопроводами, будут все чаще оказывать давление для реализации ИИ и агентских рамок.

Получение данных в желаемом состоянии — это обещание декларативных трубопроводов данных и то, как они соответствуют развертываниям кода DevOps, операциям данных и слои моделей данных с ИИ, которые адаптируются к потребностям пользователя.

Открытый источник технологии DataBricks демонстрирует, как компания вносит свой вклад в созданный он проект с открытым исходным кодом. Это укрепляет их место в сообществе.

И это не только технология, которая вносится. Инженеры DataBricks вносят свой вклад в основной двигатель, демонстрируя значение, которое они предоставляют, а также используют технологию в качестве основы своих платформных продуктов.

Тем не менее, всегда есть некоторые недостатки в подходе, который в значительной степени зависит от открытого исходного кода. Прежде всего, есть проблема восприятия. Настраивать компании с открытым исходным кодом настраивается свои собственные платформы над их эквивалентами с открытым исходным кодом? Платформа с открытым исходным кодом оценивает вторую по важности?

Это те вопросы, которые влияют на любого поставщика с открытым исходным кодом. DataBricks также не застрахована с этими типами проблем.

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Алекс Уильямс является основателем и издателем нового стека. Он давний технологический журналист, который занимался TechCrunch, Siliconangle и тем, что сейчас известно как ReadWrite. Алекс был журналистом с конца 1980 -х годов, начиная с … Подробнее от Алекса Уильямса

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *