Руководство архитектора по айсбергу Apache

Minio спонсировал этот пост.

Apache Aceberg 1.9.0, выпущенный 28 апреля, предоставляет набор обновлений, которые делают больше, чем просто расширяют свои набор функций. Они сигнализируют о чем -то большем: разрыв между Дельта -озером и Айсбергом закрывается. Особенности, которые когда-то эксклюзивны для Delta Lake, такие как операции на уровне строк с линейностью, быстрая полуструктурированная обработка данных, теперь доступны в айсберге. А Айсберг теперь поддерживает более легкую миграцию с озера Дельта, что является верным признаком того, что они больше не являются конкурентами, а победитель наследуют добычу.

Давайте рассмотрим, что нового в айсберге 1.9.0, как это отражает исторические преимущества Delta Lake и что это сближение для будущего домика озера.

Оригинальные различия между айсбергом и дельтой

Первоначально Айсберг и Дельта Лейк сделали разные архитектурные ставки.

Delta Lake приоритетно приоритет производительности рано, плотно оптимизируя паркет и зажигает с помощью модели журнала транзакций. Айсберг, с другой стороны, сосредоточился на долгосрочной организации данных-таких вещах, как создание спецификации таблицы в формате, внедрение версий на основе снимков и определение слоистой иерархии метаданных. Delta использовала плоские журналы транзакций; Айсберг использовал манифестные деревья. Дельта требует паркета; Айсберг поддержал несколько форматов, таких как Avro, ORC и, конечно, Parquet. Эти различия дали каждому проекту уникальное преимущество.

Однако с айсбергом 1.9.0 история меняется. Айсберг закрывает пробелы в производительности, сохраняя архитектурную ясность. Delta добавляет слои совместимости. То, что когда -то были отличительными, теперь являются общими возможностями.

Айсберг 1.9.0: Что нового? Усовершенствованные операции на уровне строк

Айсберг 1.9.0 позволяет сосуществовать удаления равенства и отслеживания строк. Это продвижение обеспечивает точное удаление строк на основе указанных условий и присвоения уникальных идентификаторов строк для вставленных или обновленных строк, что облегчает точное управление и аудит данных.

Delta Lake уже давно поддерживает такую ​​мутацию уровня ряда и отслеживание происхождения. Айсберг теперь соответствует этой возможности, закрывая один из функциональных пробелов между ними.

Дельта -озеро на миграцию айсберга

Айсберг предлагает структурированный подход к мигрированию из озера Дельта через модуль айсберга-дельта-лакей. Этот модуль предоставляет SnapshotdeltalaketableAction, позволяющий создавать таблицу айсберга, которая ссылается на файлы данных существующей таблицы Delta Lake без дупликации данных. Он также поддерживает поддержание истории транзакций во время миграции, обеспечивая непрерывность в операциях данных.

Результатом является более прямой и эффективный способ перейти от дельты к айсбергу и явный признак того, что айсберг становится доминирующим форматом открытых столов.

Поддержка варианта данных типа данных

Айсберг 1.9.0 вводит вариант логического типа для хранения полуструктурированных данных (например, JSON) в двоичном формате. Это избегает выступления накладных расходов на анализ и хранения JSON в качестве струн.

Идея поступает непосредственно от Delta Lake, которая внесла ту же функцию для улучшения производительности запросов до восьми раз в сравнительных сценариях. Айсберг, принятый этой возможностью, делает его жизнеспособным вариантом для рабочих нагрузок с низкой задержкой с полуструктурированными данными, такими как журналы и события.

Нативная геопространственная поддержка

Айсберг 1.9.0 добавляет новый логический тип геометрии, обеспечивая эффективное хранение и запросы пространственных наборов данных. Ключевые функции включают:

  • Поддержка хорошо известного бинарного (WKB) кодирования.
  • Справочная система координат по умолчанию (CRS) Установлен в OGC: CRS84.
  • Многомерная поддержка для форматов координат XY, XYZ, XYM и XYZM.
  • Дополнительные пространственные статистические данные, такие как ограничивающие ящики для повышения производительности запросов и пространственной индексации.

Эта геопространственная модель соответствует спецификации GeoParquet, обеспечивая совместимость со стандартами открытых данных. Это пример айсберга — и, соответственно, сообщество данных — круглосуточно вокруг общего стандарта.

Каталог REST: больше готового предприятия

Улучшения в каталоге Authentication Catalog включают:

  • Поддержка обработчиков подлинности подлинности.
  • Более четкое разделение между AUTH и логикой запроса.
  • Расширенное тестирование для систем идентификации предприятия.

Это основополагающее обновление для развертываний производственного уровня, в которых используются каталоги REST Aceberg для мультиентерных или мультитенантных сред, очень распространенный вариант использования в развертываниях Enterprise Data Lakehouse.

Уничтожение прошлого: Hadoop 2 и Spark 3.3 упали

Поддержка Hadoop 2 и Spark 3.3 была удалена. Это не просто уборка дома: это сигнал. Если вы все еще привязаны к устаревшей инфраструктуре Hadoop, пришло время спланировать свой выход. Айсберг движется вперед с современным временем забега, облачным нативным хранением и масштабируемым вычислением.

Другие известные

  • Статистика разделения API: Выставьте метаданные уровня раздела для лучшего планирования и обрезки.
  • Наносекундная поддержка временной метки: Расширенная точность для паркетных бэкэндов.
  • API Internaldators: Улучшенные пути интеграции для таких двигателей, как Spark, Flink и Trino.

Вы можете найти полные заметки здесь.

Конвергенция хороша для всех

Delta Lake уже давно является выбором по умолчанию для пользователей DataBricks. Но поскольку DataBricks приобрела таблицу, компания каталога, основанная создателями айсберга, будущее форматов открытого стола выглядит намного более объединенным.

Айсберг получает функции производительности и удобства использования, которые сделали Delta Lake популярным, оставаясь верным своей архитектурной ясности: независимая поддержка каталога, спецификационная эволюция и открытость. Delta Lake начинает выставлять интерфейсы отдыха и слои совместимости, такие как униформа.

Это конвергенция. И это хорошо для всех, кто строит на вершине озера. Организация вокруг стандартов снижает когнитивные и оперативные накладные расходы для команд, принимающих или мигрирующих озеро. Это означает, что инженеры данных, архитекторы, аналитики и инженеры по искусственному искусству не должны переучить инструменты, платформы или функциональность. Когда все работает так, как вы ожидаете, все проще.

Почему хранилище имеет значение

Если хранилище не может не отставать, ничего не имеет значения.

Айсберг зависит от быстрого сканирования, быстрых операций метаданных и высокой пропускной способности.

Современное хранение объектов предназначено для этого. Он работает на товарном оборудовании и развертывается в частных облаках, центрах обработки данных, Colos или Edge, при этом обеспечивая наилучшую производительность на наименьшем количестве аппаратного обеспечения. Экономика развертывания личного облака айсберг непревзойденна: никаких вычислительных сборов или стоимости GET и поставки означает, что вы можете масштабироваться настолько и быстро, насколько вам нужно, не беспокоясь о счете с высоким облаком. Не говоря уже о том, что наиболее безопасные развертывания по -прежнему находятся в развертываниях в воздухе.

Хранение не является захватывающей частью стека, но если оно слишком медленно, слишком дорого или недостаточно безопасно, все остальное проваливается.

Путь вперед

Конвергенция озера Дельта и айсберга не является одной из побед над другой. Это о созревании экосистемы. Поскольку оба проекта развиваются, чтобы принять сильные стороны друг друга, настоящим победителем является пользователь. Теперь команды могут выбирать инструменты, основанные на архитектурном соответствии и операционных целях, а не только для контрольных списков или выравнивания поставщиков.

Этот сдвиг подталкивает отрасль к большей взаимодействии, более открытых стандартам и более простым решениям. Он снижает затраты на переключение, поощряет лучшие практики и освобождает команды, чтобы сосредоточиться на создании надежных, высокопроизводительных систем данных, а не на навигации в формате.

Это прогресс.

Minio обеспечивает высокопроизводительное хранилище Kubernetes Con-Comection. Открытый исходный код, программный и S3, совместимый, они оптимизированы для мультикола. Minio работает по любому публичному, частному, колому или краю облако и достаточно эффективно для любой основной рабочей нагрузки, от баз данных до AI/мл. Узнайте больше последних из Minio Trending Stories youtube.com/thenewstack Tech Moving быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Бренна Бук является экспертом по теме Minio для баз данных и данных. Инженер данных, ставшая евангелистом разработчика, она увлечена кодированием, данными и обучением. Она старается вдохновить и рассказать другим разработчикам о последних инструментах и ​​… Подробнее от Бренны Бук

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *