FiveTran приносит совместимость с озером данных в Google Cloud

FiveTran спонсировал этот пост.

Наряду с поддержкой Data Lake для Microsoft Fabric, поставщик интеграции данных FiveTran расширил свой управляемый сервис озера данных, чтобы поддержать облачное хранилище Google (GCS) после предыдущих запуска на AWS и Azure. Сервис FiveTran управлял Lake Lake, которую поставщик запустил в прошлом году, автоматически преобразует данные в форматы открытых таблиц, в частности, Apache Arache Arachberg и Delta Lake и облегчает совместимость с популярными двигателями запросов и каталогами метаданных.

Объявляя новую услугу в Google Cloud, следующее в Лас -Вегасе, FiveTran говорит, что у него около 4000 совместных клиентов с Google, и это уже принимает участие в клиентах Google Cloud Storage.

Анжан Кундаварам, директор по продукту FiveTran, сказал в интервью новой стеке, что FiveTran имеет нативную интеграцию с Bigquery Metastore от Google. Это гарантирует, что данные в GCS автоматически каталогизируются в метасторе Бигкери, улучшая управление и совместимость в экосистеме данных Google. «Клиенты, которые привыкли к Google BigQuery, действительно не могут определить разницу между взаимодействием BigQuery и запросом Aceberg, работающим в облачном хранилище Google с помощью службы FiveTran Managed Data Lake», — сказал он.

Что такое озеро данных?

В отличие от хранилища данных, в котором хранится данные в системе, совместимой с кислотой, (то есть, которое имеет атомность, согласованность, изоляция и долговечность), традиционное озеро данных-это система или хранилище данных, хранящиеся в необработанном формате, обычно в виде объектов-каплей или файлов. Цель состоит в том, чтобы иметь единый хранилище данных, включая необработанные копии данных исходной системы, данные датчиков и социальные данные.

Термин «озеро данных» был придуман в 2010 году тогдашним офицером технологий Джеймса Диксона в Пентахо. Диксон писал, что он хотел, чтобы термин отличался от «Mart Data Mart», который представляет собой меньший репозиторий интересных атрибутов, полученных из необработанных данных.

Чтобы добавить к путанице терминологии, термин «Lakehouse Data» часто используется несколько взаимозаменяемо с «озером данных». Строго говоря, данные Lakehouse — это гибридный подход; Как и озеро Data, он может приглашать широкий спектр необработанных форматов данных, но также поддерживает кислотные транзакции, как это делает хранилище данных. Тем не менее, современное озеро Data использует открытые форматы таблицы, которые хранят данные, совместимые с кислотой, чтобы обеспечить функциональность, похожие на хранилища данных, в озера данных.

Озера данных могут быть сложными для управления, особенно когда они не активно поддерживаются, и, следовательно, иногда и уничижительно называют «болотами данных». В отчете 2014 года от PWC Шон Мартин, технический директор Cambridge Semantics, сказал: «Мы видим, как клиенты создают кладбища больших данных, бросая все в распределенную систему Hadoop и надеясь сделать что -то с ним в будущем. Но они просто теряют то, что там.

Как Genai повышает озера данных

Возможно, это объясняет, почему озера данных, казалось, ненадолго упали из -за пользы. Тем не менее, Кундаварам предположил, что генеративный ИИ (Genai) был катализатором для новой волны инициатив на озере данных. Это, по его словам, потому что «для агентов или тряпки [retrieval-augmented generation]Вы действительно хотите все свои данные, структурированные и неструктурированные, в одном месте ».

FiveTran имеет партнерство с OpenAI, компанией, которая — к лучшему или худшему — становится плакатом для приливной волны шумиха вокруг Genai. «У OpenAI есть та же самая проблема с конвейером данных, что и у всех, хотя, вероятно, в более широком масштабе», — сказал Кундаварам. «Мы были близкими партнерами с ними, поддерживая их вариант использования и инновации вместе с [them].

Наряду с его способностью обрабатывать как структурированные, так и неструктурированные данные из нескольких источников, Кундаварам предложил две дополнительные причины, по которой озеро данных является лучшим подходом для проектов Genai: будущие защиты и стоимость. «Он построен на открытых стандартах, и если вы хотите использовать любое количество инструментов запроса, таких как Google, Snowflake или Databricks, вы можете», — сказал он. «Это также очень экономически эффективно, так как вам не нужно делать копии данных, а клиенты испытывают значительную экономию за затраты на примирение».

В целом, FiveTran сказал, что такие компании, как Disney, Sonos, Workday и PWC, обращаются к управляемым озерам данных, поскольку они стремятся централизовать высокие объемы структурированных и неструктурированных данных для рабочих нагрузок искусственного интеллекта.

Учитывая обновленный интерес к озерам данных, мне было любопытно, почему FiveTran не выпустил продукт Lake Data до сих пор. Конечно, создание нового продукта неизбежно требует времени и значительных инженерных инвестиций, но Кундаварам сказал, что форматы открытых столов, особенно айсберг Apache, также нуждались в времени, чтобы стать достаточно хорошо разработанным. «За последние пару лет это немного повзрослело», — сказал он.

Ландшафт, ценообразование и перспективы

Интеграция данных является высококонкурентным пространством. Среди десятков поставщиков основные игроки включают Microsoft с Azure Data Factory, SQL Server Integration Services и Power -запрос для интеграции данных и Microsoft Fabric в качестве основной платформы данных; Informatica имеет свое интеллектуальное облако управления данными; и Oracle обладает облачной инфраструктурой Oracle, Oracle Goldengate и Oracle Data Integrator.

Чтобы выиграть клиентов, FiveTran нуждается в преимуществе. Прочность на ядро ​​- это экосистема 700+ разъемов. По словам Кундаварама, он продолжает инвестировать здесь, добавляя около 60-70 новых разъемов в квартал. Программа поставщика FiveTran Program позволяет своим клиентам встраивать разъемы FiveTran в свои собственные приложения, а Connector SDK позволяет партнерам создавать пользовательские разъемы по мере необходимости. Используя это, предприятия могут централизовать большие объемы данных в Google Cloud Storage, создавая основу для обучения пользовательских моделей крупных языков (LLMS).

FiveTran включает в себя ряд возможностей управления данными, таких как контроль доступа на основе ролей (RBAC), шифрование данных и блокирование и хэширование столбцов. Кроме того, его модель гибридного развертывания может использоваться для поддержания плоскости данных и всех трубопроводов в собственной безопасной сети клиента.

«У нас есть много клиентов с конфиденциальными данными, которые запускают наш продукт, используя гибридное развертывание», — сказал Кундаварам. «Это гарантирует, что только функциональные метаданные возвращаются в нашу плоскость контроля, в то время как данные не покидают окружающую среду».

По сравнению с его более крупными конкурентами, FiveTran использует другой подход к преобразованию данных. Поставщик предлагает более простой набор из 55 моделей DBT-Core-совместимых данных QuickStart для своих самых популярных разъемов, включая Marketo, MixPanel, Salesforce и SAP. По словам Кундаварама, около 40% его клиентов используют их при настройке интеграции источника, а также «трансформированные, готовые к аналитике таблицы». В качестве альтернативы, клиенты могут создавать свои собственные модели DBT, которые FiveTran может запланировать и управлять.

FiveTran финансируется предприятием, и в своем последнем раунде финансирования (в 2021 году) он объявил о раунде серии D в размере 565 миллионов долларов, оцененный компанию в размере 5,6 млрд долларов. В сентябре 2024 года Fivetran объявил, что превзошел 300 миллионов долларов в годовом доходе, по сравнению с 200 миллионами долларов в 2023 году, хотя эти данные не были проверены в соответствии с правилами публичных компаний.

Исторически, малые и средние предприятия (малые и малые мнения) были направлены на Файветран, но в результате его приобретения HVR в 2021 году наряду с раундом финансирования серии D поставщик расширил свой охват за пределы сегмента среднего рынка. Например, Pfizer использует FiveTran «для поддержки масштабируемых аналитических платформ и обеспечения аналитики в реальном времени, что особенно важно в таких областях, как клинические испытания и операции цепочки поставок», согласно тематическому исследованию FiveTran.

С точки зрения ценообразования, FiveTran основан на потреблении в многоуровневой модели, основанной на ежемесячных активных строках, обработанных. Этот подход позволяет клиентам SMB начинать свои проекты, не обеспечивая значительные авансовые капитальные затраты и более крупные предприятия, чтобы лучше управлять затратами даже в качестве масштабов объемов.

Узнайте больше о управляемом сервисе FiveTran Data Lake для облачного хранилища Google.

FiveTran, мировой лидер в области движения данных, расширяет возможности таких компаний, как OpenAI, Pfizer и Morgan Stanley, для аналитики Power и AI и достигать преобразующих результатов бизнеса. Узнайте больше последних из FiveTran Trending Stories YouTube.com/ThenewStack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Чарльз Хамбл — бывший инженер -программист, архитектор и технический директор, который работал старшим лидером и руководителем как технологических, так и контент -групп. Он был главным редактором Info Quec с 2014-2020 годов и был главным редактором контейнерных решений с 2020 по 2023 год …. Подробнее от Чарльза Хамбла

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *