Снежинка спонсировала этот пост.
В то время как все согласны с важности фонда данных, готового к данным, часто существует отключение правильных инструментов для его построения. Инженеры хотят использовать программное обеспечение с открытым исходным кодом для его гибкости и акцента на совместимость. С другой стороны, лидеры бизнеса скептически относятся к воспринимаемой сложности и отсутствию возможностей предприятия.
Эти общие колебания вокруг усыновления с открытым исходным кодом часто основаны на устаревших предположениях. Современный подход открытых данных в настоящее время является эффективным, безопасным, адаптивным и гибким. Этот вид архитектуры не просто упрощает ландшафт данных; Это помогает организациям двигаться быстрее, уменьшить сложность и в конечном итоге вывести больше понимания из их данных. Чтобы помочь предприятиям чувствовать себя более уверенно в отношении того, что открытый исходный код может разблокировать и поощрять большую выравнивание в рамках технического и бизнес -лидерства, полезно не распаковать неправильные представления об открытом исходном коде и проиллюстрировать, как путешествие открытых данных, а именно с Apache Araceberg, может выдержать успех ИИ.
Заблуждение 1: Собственность безопаснее, более исполняет миф
Переход от запатентованного, «разработанного вручную» формата в открытый, означает жертву производительности и безопасности.
Реальность
Apache Areberg разделяет методы со многими форматами фирменных таблиц и использует стандартный подход, управляемый метадатами, к планированию запросов. В отличие от предыдущих поколений форматов таблиц, которые опирались на локальное хранилище и быстрое доступ к файлам, подход метаданных айсберг повышает производительность путем оптимизации облачных данных. Вместо того, чтобы тратить время на список и осматривать файлы — медленный, дорогой процесс в облаке — он использует уровень метаданных, который включает статистику файлов, позволяя двигателям запросов быстро обрезать ненужные данные. Это снижает дорогостоящие операции S3 и обеспечивает более быстрое выполнение запросов и снизить вычислительные затраты.
Основное преимущество в области безопасности Айсберга заключается в его открытом и стандартизированном формате. Как проект Apache Software Foundation, его спецификация является общедоступным и агентом-поставщиком, предотвращая блокировку поставщиков и позволяет интеграции с широким спектром открытых и проприетарных инструментов и систем безопасности. Из -за этой функции организации не привязаны к одной платформе или модели безопасности поставщика. Вместо этого они могут использовать надежные, стандартные решения для шифрования, контроля доступа и аудита.
Более того, более старые форматы не оснащены для современных требований к управлению данными, таких как GDPR, но айсберг построен для выполнения этих эффективных и в масштабе. Разработанный для устранения ограничений более старых систем на основе файлов путем обработки данных как структурированной таблицы, а не просто набора файлов, Areberg позволяет мелкозернистые операции на уровне строк, которые необходимы для соответствия.
Влияние на бизнес
В то время как запатентованные форматы часто настраиваются на заказ для одного двигателя, айсберг предлагает гораздо более ценную компромисс: универсальную совместимость. Это позволяет бизнесу использовать одну копию своих данных с каждым основным двигателем запросов и трансформации на рынке, исключая блокировку поставщиков и позволяя предприятиям выбрать лучший инструмент для работы в любой момент времени. С айсбергом инерция данных ушла в прошлое. Новые двигатели могут быть протестированы и использованы немедленно без ETL или трудоемкой миграции. Это стратегическое преимущество, которое перевешивает незначительные различия в эффективности, которые продолжают сокращаться, для сильной, долгосрочной стратегии данных.
Заблуждение 2: Миграция в новый формат является кошмаром миф
Переход в айсберг из более старых форматов-это сложный, дорогостоящий и высокий риск.
Реальность
Айсберг был построен с первого дня с миграцией из других таблиц на основе файлов. Его дизайн включает в себя встроенные возможности для импорта и мигрирования таблиц, означающих, что вы можете интегрировать айсберг без нарушения существующих конвейеров данных. Это допускает поэтапное развертывание, где команды могут поддерживать свои старые трубопроводы, пока они не будут готовы к переключению. Другим ключевым преимуществом является миграция на месте, которая позволяет генерировать файлы метаданных айсберг в верхней части существующих файлов данных Parquet, AVRO или оптимизированных данных ROW (ORC). Этот подход значительно быстрее и более рентабельно, поскольку он не позволяет пользователям копировать огромные объемы данных.
Открытый и совместный характер айсберга означает, что предприятия могут интегрировать его с их текущими двигателями и инструментами запросов, что позволяет постепенно внедрить и поэтапно развертываться. Сообщество разработало четкие, пошаговые модели миграции, доказывая, что процесс является четко определенным и надежным. Это позволяет предприятиям в первую очередь принять айсберг для новых проектов или критических таблиц, совершенствуя их подход перед полномасштабной миграцией.
Влияние на бизнес
Экосистема айсберга значительно созрела, и многие облачные провайдеры и платформы данных теперь предлагают встроенную поддержку и инструменты для упрощения процесса миграции. Эта надежная поддержка облегчает передовым компаниям, чтобы перейти на открытую, масштабируемую и управляемую платформу данных.
Отличным примером этого является поставщик Health Tracker Whoop, который использовал этот переход, чтобы значительно улучшить его операции. Приняв унифицированную платформу со снежинками и айсбергом Apache, Supop смог значительно снизить накладные расходы на инфраструктуру, экономя 20 часов вычислений в день и десятки тысяч долларов в месяц.
Помимо простых миграции, совместимость айсберга означает, что команды могут применять знакомые реляционные концепции, которые они уже используют для своих массовых наборов данных. Этот сдвиг позволяет им перемещать свое внимание от написания и отладки сложной, многоэтажной пользовательской логики транзакций, чтобы просто использовать эффективное слияние в утверждение. В конечном счете, это освобождает их время, чтобы сосредоточиться на инновациях и вытеснении бизнеса из своих данных.
Заблуждение 3: с открытым исходным кодом добавляет сложность мифа
Новый открытый стандарт добавит еще один слой сложности в и без того растягивающуюся инфраструктуру данных.
Реальность
Да, разрастание инструментов реально, и никто не хочет добавлять эту проблему. Вот почему основное преимущество айсберга — архитектурное упрощение. Вместо того, чтобы нуждаться в нескольких системах с дорогими фоновыми процессами, чтобы поддерживать синхронизацию, айсберг позволяет каждому двигателю работать с одной копией данных. Несколько типов существующих таблиц могут быть преобразованы в айсберг, что значительно уменьшило общую сложность вашей архитектуры данных.
Кроме того, такие функции, как путешествие во времени и транзакционная семантика, встроены непосредственно в айсберг, что устраняет необходимость в инженерном разработке для достижения этих возможностей. При путешествии во времени предприятия могут мгновенно аудить изменения данных и даже восстановить прошлые версии, что имеет решающее значение для соблюдения и отладки. Транзакционная семантика обеспечивает целостность данных во время одновременных операций, что дает командам уверенность в точности их аналитики. Это смещает внимание команд от управления сложной инфраструктурой к созданию бизнес -ценности.
Влияние на бизнес
Открытый исходный код предлагает гибкость предприятий и совместимые возможности, которые обеспечивают конкурентное преимущество, чтобы оставаться гибкими и не запертые ни в одном поставщике. Предлагая более четкий путь к объединению данных, айсберг помогает организациям устранить силосы данных, чтобы ускорить время для понимания и активировать огромные объемы данных, которые они могут иметь, но еще не могут разблокировать значение. Открытые стандарты являются ключом к стратегии данных в будущем и позволяют предприятиям принимать новые, захватывающие технологии, когда они появляются без трения.
Будущее открыто
Воспринимаемые риски открытого исходного кода являются, на самом деле, ключами к разблокировке большей простоты, надежности и ценности бизнеса. Будущее данных не является выбором между открытым исходным кодом и проприетарными системами, а гармоничной смесью обоих — с открытыми стандартами, такими как айсберг, обеспечивая основную основу для процветания AI Enterprise. Решая проблемы разработки данных, такие как настройка инфраструктуры, разрозненные инструменты и сложные архитектуры данных, предприятия создают необходимую основу для успеха ИИ. Новые инструменты разработаны с учетом айсберга, что означает, что если ваши данные уже находятся в таблице айсберга, они готовы к любым появлению новых технологий, особенно в пространстве ИИ. Этот по-настоящему совместимый формат гарантирует, что данные предприятий-это не просто актив, но и динамичная, будущая основанная основа для того, что будет дальше.
Начало работы с айсбергом
С заблуждениями о развеянии с открытым исходным кодом, вы можете задаться вопросом, как начать путешествие по айсбергу. Оценка того, с чего начать, может чувствовать себя пугающим, но стратегический подход может обеспечить успех. Следуя этим этапам, вы можете начать преобразовать свою инфраструктуру данных из одной из сложности в одну из простоте, проложив путь к более эффективной операциям и ускоренной ценности бизнеса:
Шаг 1: Определите сложность. Определите, где вы испытываете наибольшую сложность в своей текущей инфраструктуре. Изучите, как несколько инструментов, работающих над одним, регулируемой копией ваших данных, может упростить вещи.
Шаг 2: Определите успех. Определите, как будет выглядеть успех для потенциального теста. Ваше намерение создавать меньше трубопроводов/копий данных? Является ли цель быстрее соглашения на уровне обслуживания (SLA)?
Шаг 3: Оцените решения. Оцените решения, которые фокусируются на упрощении вашей архитектуры, чтобы полностью захватить ценность этого преобразования в айсберг.
Этот подход гарантирует, что ваше первоначальное принятие айсберга является стратегическим и успешным, создавая основу, которая будет посвящена исходной площадке для будущих инноваций и роста, поэтому вы готовы к тому, что приносит эра ИИ.
Snowflake позволяет каждой организации мобилизовать свои данные с помощью облака данных Snowflake. Клиенты используют облако данных для объединения данных, обнаружив и надежно обмениваться данными, приложениями данных о мощности, а также выполняют различные рабочие нагрузки AI/ML и аналитические рабочие нагрузки по нескольким облакам и географии. Узнайте больше последних из Snowflake Trending Stories youtube.com/thenewstack Tech Moving быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Рассел Спитцер — главный инженер -программист в Snowflake, где он сосредоточен на каталоге Apache Araceberg и Polaris. Рассел увлечен распределенными вычислениями и участвует в нескольких проектах Apache Software Foundation, таких как Apache Cassandra, Apache Spark и … Подробнее от Рассела Спитцера