Как разветвление сегмента переносит разветвление в стиле GitHub в объектное хранилище

Тигрис спонсировал этот пост.

Хотя разветвление является довольно обычным явлением на платформах кода, таких как GitHub и других файловых системах, оно не является функцией объектного хранилища. Стремясь изменить это, компания Tigris Data ввела разветвление сегментов, которое позволяет организациям разветвлять свои данные — без громоздких копий, отнимающих много времени задержек, роста затрат, проблем с управлением данными или проблем с безопасностью и регулированием — с той же легкостью, с которой вы можете разветвлять код в GitHub.

Что такое разветвление ковша?

Формирование сегментов подкрепляется моментальными снимками данных, которые эффективно замораживают состояние данных в определенный момент времени, чтобы их можно было разветвить.

После разветвления данных появляется копия корзины, содержащая только метаданные, с которой пользователи могут работать (что позволяет им изменять, добавлять или удалять данные в любой точке), не затрагивая исходную корзину. Как и в случае с разветвленным кодом в git, разветвленная корзина и исходная корзина изолированы друг от друга; изменения в одном не проявляются в другом.

Доступ к разветвленным данным происходит так же мгновенно как для петабайт данных, так и для гигабайт. Это обеспечивает масштабируемые средства стимулирования инноваций для «песочниц» обработки данных, тестирования и развертывания интеллектуальных агентов в производстве, а также внедрения быстрого резервного копирования для ускорения аварийного восстановления.

Формирование сегментов использует неизменяемую архитектуру, допускающую только добавление, и FoundationDB с открытым исходным кодом в качестве хранилища метаданных на основе ключей для базовых объектов данных. Эта архитектура помогает сделать объектное хранилище Tigris Data, совместимое с AWS S3, применимым в широком диапазоне отраслей и сценариев использования.

Роль архитектуры на основе журналов

Функции разветвления сегментов в объектном хранилище Tigris Data напрямую связаны с его неизменяемой архитектурой, которая была спроектирована как система на основе журналов.

«По мере создания нового хранилища объектов и новых файлов или обновления новых версий файлов они просто добавляются в журнал», — пояснил Овайс Тарик, генеральный директор Tigris Data.

«Поскольку вы знаете, что данные не будут мутировать или изменяться, вам не нужно копировать весь набор данных».
—Овайс Тарик, генеральный директор Tigris Data

Эта архитектура, допускающая только добавление, означает, что независимо от того, сколько раз объекты обновляются, существует полная история изменений, которую можно использовать для поддержки путешествий во времени. Это также помогает поддерживать состояние системы хранения.

«При изменении состояния возникает множество крайних случаев, о которых вам нужно подумать», — сказал Тарик. «Вам нужно подумать о параллелизме и конфликтах. Некоторые из этих сложностей исчезают при выборе неизменяемого дизайна, допускающего только добавление».

Понимание моментальных снимков в объектном хранилище

Снимки — это замороженный момент времени «журнала» хранилища. Они создаются путем размещения маркера в определенном временном состоянии сохраненных данных. Помимо выявления всего, что произошло с состоянием данных до этого момента, снимки помогают организациям восстановиться после кибератаки или реализовать аварийное восстановление.

Еще одно потенциальное преимущество для организаций заключается в том, что «поскольку вы знаете, что данные не будут мутировать или изменяться, вам не нужно копировать весь набор данных», — прокомментировал Тарик.

Такой подход потенциально создает существенную экономическую выгоду. Поскольку копий нет, организации могут создавать снимки данных любого масштаба, не платя больше за большие объемы хранилища. Они также могут реализовать столько снимков, сколько им необходимо, будь то ежечасно, ежедневно, еженедельно или каждые полчаса, для удовлетворения своих приложений.

Прежде всего, снимки позволяют разветвлять сегменты, что предполагает «создание параллельных временных рамок данных без какого-либо копирования», — сказал Тарик.

Как разветвление сегментов поддерживает машинное обучение

Для экспериментов с многоагентным машинным обучением (ML) мгновенное масштабируемое разветвление сегментов помогает специалистам по данным экспериментировать с различными версиями данных и моделей. Управление версиями, встроенное непосредственно в хранилище, устраняет необходимость во внешних инструментах управления версиями, поощряя более ранние и быстрые эксперименты.

«Если у вас есть общий набор данных и вы хотите провести с ним несколько экспериментов с помощью Tigris, их легко провести изолированно», — сказал Тарик. «Вы просто раскошелитесь».

Этот подход может оказаться еще более полезным для развертывания агентов, особенно с точки зрения их успешного мониторинга, управления и аудита. «Если у вас есть агент по кодированию и он допускает ошибки, вы можете делать снимки каждый раз, когда агенты вносят изменения», — сказал Тарик.

После этого организации могут просто вернуться к состоянию до того момента, когда произошла ошибка, и соответствующим образом обновить функциональность агента.

Во многих агентных системах агенты работают параллельно, создавая проблемы не только с коллизиями, но и с управлением своей средой. «Когда несколько агентов используют одну и ту же среду разработки, разветвление обеспечивает безопасность и изоляцию», — продолжил Тарик.

Используя форк для каждого агента, организации могут помочь обеспечить безопасность, изоляцию и контроль на определенный момент времени.

Технология разветвления: FoundationDB

Управление версиями, важнейший фактор разветвления сегментов и снимков, связано с метаданными, хранящимися в FoundationDB, распределенном упорядоченном хранилище значений ключей, в котором «упорядочен диапазон ключей», — сказал Тарик.

Ключи — это метаданные, состоящие в основном из информации о сегментах и ​​их объектах, ключе объекта и версии данных. Управление версиями поддерживает разветвление сегментов и снимки, предоставляя множество метаданных одного и того же объекта.

Как объяснил Тарик: «Когда я пишу объект один раз, он начинается с нулевой версии. Затем, когда я пишу следующую копию, он начинается со следующей версии, и так далее, и тому подобное».

Хотя FoundationDB хранит ключи или «указатели» метаданных об объектах, базовые данные хранятся на диске в хранилище файлов. Эти данные на самом деле не копируются, что позволяет организациям разделять данные и начинать работать с ними, как с копией, без удвоения объема хранилища, за которое они платят.

Этот подход предназначен для случаев использования в целях соблюдения нормативных требований и управления данными, поскольку «вы автоматически получаете поддающийся проверке контрольный журнал всех изменений, которые были выполнены в хранилище», — пояснил Тарик.

Широкая применимость в различных отраслях

Основная ценность разветвления корзины Tigris Data заключается не в легкости, простоте или мерах экономии, которые оно обеспечивает для работы с наборами тестовых данных или резервными копиями.

Наиболее важным фактором является то, что эти преимущества, включая аварийное восстановление, возможность аудита, эксперименты в области науки о данных, многоагентное развертывание и многое другое, применимы горизонтально в разных отраслях и сценариях использования. Они способствуют развитию любого аспекта среды данных, обеспечивая при этом неизменяемые записи обо всем, что было сделано с данными, без их копирования.

Tigris Data — уровень хранения, специально созданный для искусственного интеллекта. Tigris — это S3-совместимое объектное хранилище, переосмысленное для высокопроизводительных рабочих нагрузок данных и искусственного интеллекта. Идеально подходит для работы с таблицами, векторными внедрениями, артефактами машинного обучения и мультимодальными конвейерами искусственного интеллекта. Узнайте больше Последние новости от Tigris ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Джелани Харпер работала аналитиком, руководителем исследований, консультантом по информационным технологиям и журналистом более 10 лет. За это время он помог множеству поставщиков и публикаций в области управления данными разработать стратегию, разработать, составить и разместить… Подробнее от Джелани Харпер

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *