Движение открытого формата нагревается: Снежинка охватывает айсберг Apache

Сегодня гигант Gainthouse Data Snowflake объявил о значительном увеличении своей поддержки таблиц Apache Araceberg. Расширенная интеграция с форматом открытой таблицы позволяет клиентам снежинки получить доступ к данным айсберга, как если бы она ничем не отличалась от других данных, содержащихся в популярных облачных платформах данных.

В результате теперь существует множество функций с снежинками, которые работают со столами айсберга, что делает последнее более безопасным, легче делиться и более эффективным для определенных рабочих нагрузок.

Улучшения снежинки до таблиц айсберга включают в себя:

  • Управление данными: Организации могут применять безопасность столбцов и на уровне строк к таблицам айсберга с помощью таких методов, как маскирование и шифрование.
  • Обмен данными: Снежинок может безопасно обмениваться таблицами айсберга и видами таблиц внутри платформы — без репликации данных. Они также могут публиковать данные айсберга на рынок Snowflake, который предоставляет возможности монетизации.
  • Непрерывность бизнеса: Снежинка отвечает за воспроизведение, синхронизация и резервное копирование таблиц айсберга в нескольких облаках и облачных областях.
  • Вычисления: С такими функциями, как служба ускорения запросов и службы оптимизации поиска, соответственно, Snowflake может ускорить запросы и более низкие вычислительные затраты для использования таблиц айсберга. Эти функции находятся в предварительном просмотре для данных айсберга и, как правило, доступны для запатентованного формата хранения Snowflake.

«Мы провели последние 18 с лишним месяцев, действительно перестроив много ядра снежинки, так что таблицы айсберга теперь действительно являются первым классом в Snowflake», — прокомментировал Крис Чайлд, вице -президент Snowflake по продукту Data Engineering. «Это означает, что они поддерживают все различные возможности снежинки».

Снежинка API

Вышеупомянутые возможности укрепляют поддержку айсберга снежинки, так что использование этого формата данных практически неразличимо от формата, родного для снежинки. До сегодняшнего объявления можно было подключить столы айсберга и запросить их в снежинках, хотя система рассматривала их как отдельные от своей ядра.

По словам ребенка, «если вы используете API -интерфейсы с открытым исходным кодом для доступа к данным, вы ограничены вещами, которые поддерживает сам айсберг. С другой стороны, если вы входите и используете их в рамках снежинки или через API снежинки, то вы получаете доступ ко всем этим возможностям».

Айсбергское хранилище стола

Хранение реальных таблиц айсберга действует для клиентов Snowflake. Пользователи нередко используют хранилище Microsoft Azure Blob Blob или S3 Web Services для этой цели. Затем Snowflake хранит то, что составляет «сочетание файлов метаданных паркетов и айсберг… непосредственно в ведре клиента», объяснил Чайлд. «А потом вы используете каталог, чтобы помочь управлять контролем доступа и открытия и несколько других вещей».

Организации могут выбрать свой каталог данных по выбору для этих задач. Snowflake отстаивает Apache Polaris, который может работать внутри своей платформы в качестве управляемого сервиса. Из -за интеграции каталога и сохраненной информации о таблицах айсберга, который ребенок упоминал: «Когда вы находитесь в снежинок, они чувствуют себя как снежинка», — сказал он.

Ускорения запроса

Служба оптимизации поиска снежинки и служба ускорения запросов могут глубоко повлиять на определенные рабочие нагрузки с участием таблиц айсберга. Первое особенно актуально для анализа аспектов данных временных рядов и данных для наблюдения или использования безопасности.

В частности, эта функция используется «когда вы делаете поиск точек или ищете определенные части данных, в отличие от выполнения совокупных запросов на него», — пояснил Чайлд. Включение службы оптимизации поиска позволяет системе хранить дополнительные метаданные для ускорения извлечения отдельных строк или отдельных типов данных для рабочих нагрузок, которые «традиционно медленные в столбчатом формате», сказал Чайлд.

Масштабируемый вычисление для запросов

Служба ускорения запроса Snowflake динамически расширяет вычислительные средства для запросов, работающих в снежинок. Это жизнеспособно для пользователей, которые обычно полагаются на малые и средние рабочие нагрузки для хранилищ данных, но у которых иногда есть запросы на более крупные суммы данных, которые работают быстрее с большими ресурсами, посвященными им.

С помощью этой услуги «мы смотрим на каждый запрашивающий запрос, и если он будет работать быстрее на большем размере склада, мы пойдем больше для этого запроса в частности», — сказал Чайлд. «Таким образом, мы можем адаптировать количество вычислений, которое вы имеете, не только на уровне склада, но и на индивидуальном уровне запроса». В результате клиенты могут уменьшить размер своих вычислительных кластеров, чтобы снизить затраты, но при этом получить лучшую среднюю производительность, потому что система может увеличиться, когда она будет полезна.

Доступ на основе ролей

Особенности безопасности и управления Snowflake в основном основаны на доступе на основе ролей, который теперь работает на данных айсберга. Применяя контроль безопасности на уровне строк, система позволяет сотрудникам из разных отделов, например, получать различные результаты запроса «в зависимости от ролей, которые вы применяли», сказал Чайлд. Благодаря безопасности на уровне столбцов организации могут удалять столбцы, к которым люди не имеют доступа при запросе данных, отредактировали их или помечать в соответствии с такими проблемами управления, как PII. Пользователи могут реализовать правила, которые только определенные роли могут получить доступ к всем номерам кредитных карт, в то время как другие получают последние четыре или ни одной из цифр.

«Вы просто определяете это один раз, и это применяется, а затем к каждому заполнению запроса, в любом случае, как данные получают доступ, независимо от того, как они поступают на него», — сказал Чайлд. «Эти вещи либо не работают, либо их очень трудно реализовать в сыром айсберге». Методы запутывания включают внутренний контроль токенизации и маскировки. Snowflake партнеры с поставщиками для внешней токенизации, в которой данные токенизированы, прежде чем обращаться через платформу.

Обмен данными

Теперь организации могут делиться конкретными аспектами данных айсберга — целых таблиц, представлений, функций и даже приложений — друг с другом, не копируя или перемещая данные. Поскольку Snowflake работает как управляемый сервис, эти аспекты данных могут быть доступны по требованию пользователям из разных организаций или отделов. По словам ребенка, эта функция работает со «всеми способностями управления снежинки».

Snowflake также поддерживает Data Clean Rooms, в которых она действует как нейтральная сторонняя организации (например, производитель мебели и магазин мебели), чтобы увидеть, какие у них общие клиенты. При таком подходе система позволяет обеим сторонам «возможность искать совпадения в наших списках клиентов, но не выполнять произвольные запросы против моих данных», — сказал Чайлдс. Таким образом, организации разоблачают только данные, которые они хотят от своих таблиц айсберга. Данные айсберга также могут быть обмены, куплены и продаются на рынке снежинок, рынке данных поставщика.

Бизнес -непрерывность

Возможности аварийного восстановления снежинки позволяют иметь значение для любого пользователя таблиц айсберга. Они просто указывают — через пользовательский интерфейс — где им хотелось бы, какие таблицы они хотят реплицироваться для непрерывности бизнеса. Затем Snowflake поддерживает копию этих данных в выбранном месте клиента, которое может охватывать облака или облачные регионы.

«Когда вы вносите изменения в данные, мы постепенно повторяем эти изменения в другой регион экономически эффективным образом»,-сказал Чайлд. «А потом, если у вас есть проблема или отключение в этом первом регионе, вы можете сбой и прозрачно переместить свои рабочие нагрузки, ваши трубопроводы, ваших клиентов, и все это переключится на другой регион с очень небольшим разрывом и очень небольшим временем простоя».

Большая точка

Расширенная поддержка Snowflake для айсберга означает больше, чем увеличение управления, безопасности, аварийного восстановления, обмена данными и механизмов ускорения запросов для формата открытых столов. Это означает, насколько способны открытые форматы хранения для современного управления данными, аналитики и вариантов использования ИИ. Это также говорит о том, насколько они будут в ближайшем и далеком будущем.

«Мы действительно взволнованы айсбергом, в частности, потому что это по-настоящему открытый формат, основанный на сообществе»,-сказал Чайлд. «Мы действительно рады быть частью этого, и внести свой вклад и помогать продвигать всю экосистему данных вперед, и принять много вещей, которые действительно были невероятны в снежинках и приводят их в айсберг».

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Jelani Harper работал аналитиком, руководителем исследований, консультантом по информационным технологиям и журналистам более 10 лет. В течение этого времени он помогал бесчисленным поставщикам и публикациям в области управления данными, разрабатывать, сочинять и поместить … Подробнее от Jelani Harper

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *