Почему стартапы ставят все ставки на Apache DataFusion

Растущее число новых систем необходимо для употребления, организации и запроса мультимодальных данных в практически в реальном времени для подачи контекста, четкого искусственного интеллекта, поддержки приложений в реальном времени, таких как мониторинг промышленной инфраструктуры, аналитические панели мониторинга и высокопроизводительные потоки событий. Те же самые основные тенденции, которые породили базы данных и инфраструктурные компании за последние 20 лет, продолжают ускоряться, поскольку мы полностью вступаем в возраст ИИ.

Методы, необходимые для высокопроизводительных аналитических систем, в настоящее время хорошо изучены, но ранее были доступны только в небольшом количестве запатентованных, тесно интегрированных и дорогих предприятий, учитывая огромные инженерные инвестиции, которые они требуются для реализации. К счастью, все большее количество новых, инновационных аналитических систем может быть построено с использованием данных Apache. Эта разрешенная лицензированная библиотека с открытым исходным кодом предлагает тот же уровень технологий с гораздо более низким барьером входа.

Многие новые стартапы используют данные о данных в своих продуктах, в том числе Flarion, Wayfare.AI, Lakesail, Embucket, Feldera и Pydantic Logfire. Они присоединяются к рядам более зрелых стартапов, таких как Synnada, Polygon.io, Greptime, LancedB, Wrenai, Spiceai, Cube, OpenObserve, InfluxData и Coralogix, а также устоявшиеся компании, такие как Apple, eBay и DataDog, которые используют данные для оптимизации внутренних систем и процессов. Наконец, в последние 12 месяцев была получена первая волна датчиков продуктов, полученных на основе продуктов: SDD Labs от DBTLabs и Arroyo By CloudFlare.

Почему дата имеет значение сейчас

Фузия данных — это двигатель запроса, записанный в ржавчине, оптимизированный для столбчатых форматов, таких как Apache Parquet. Это часть более широкого движения в сторону композиционных, высокопроизводительных систем, построенных на открытых стандартах. Благодаря быстрому векторизованному исполнению, гибким точкам расширения и крупному и быстро растущему сообществу, данные о данных развивались от эксперимента к основному.

Базы данных являются сложной технологией. Языки запросов, такие как SQL, оптимизаторы, двигатели выполнения и форматы хранения, должны работать быстро и эффективно работать с произвольными пользовательскими запросами в пределах определенных ограничений ресурсов.

В InfluxData мы на раннем этапе сдерживаем данные о данных, основывая InfluxDB 3 на стеке FDAP: Apache Flight, DataFusion, стрелках и паркете. Все с открытым исходным кодом, все это управляется Фондом программного обеспечения Apache. Это решение позволило большинству нашей инженерной команды сосредоточиться на том, что важно для временных рядов: скорость приема, запросы в реальном времени, уплотнение и масштаб, одновременно используя общую инфраструктуру с открытым исходным кодом для всего остального. Это окупилось. Сегодня каждый аспект обработки данных в InfluxDB 3 регулируется планом данных, и мы выполняем десятки миллионов планов в день в производстве. Когда сообщество вносит свой вклад в информацию о данных, эти улучшения напрямую интегрируются в InfluxDB 3, так же, как мы вносим свой вклад в информацию о данных, улучшения передаются с другими пользователями.

Мы не одиноки в этом смене. Растущее внедрение архитектур и форматов озера открытых данных, таких как паркет и айсберг, требует новых, оптимизированных систем. DataFusion Apache, с его многоразовым высокопроизводительным векторизованным двигателем и поддержкой открытого формата, хорошо подходит для создания этих систем следующего поколения.

Рисунок 1: Следующее поколение аналитических систем строится вокруг открытого озера данных (обычно паркетные файлы, хранящиеся на хранении объектов). Эта новая архитектура вызовет большое количество новых специализированных обработчивых двигателей, адаптированных для конкретных вариантов использования, и многие будут питаться путем изложения данных.

Революция данных Apache: от эксперимента к Essential в 2024 году

В прошлом году данные данных были повышены до проекта Apache на высшем уровне, как признание его зрелости и импульса. DataFusion 43.0.0 (кратко) был самым быстрым двигателем для запроса файлов Parquet Apache в Clickbench, опередив DuckDB, Clickhouse и других двигателях на основе C/C ++. Это был переломный момент, так как это был первый раз, когда двигатель ржавчины возглавил таблицу лидеров.

Такая производительность не легко. Поступили согласованные усилия от десятков участников, чтобы обеспечить глубокую, низкоуровневую оптимизацию, все, от более умных макетов памяти (StringView) до пропуска расточительных агрегаций и переосмысления того, как хранятся и сравниваются групповые группировки.

Как DataFusion, управляемые сообществом, способствует росту предприятия

Сила DataFusion не является кодом, который, в конце концов, бесплатен для любого использования. Сила в сообществе.

Фузия данных не имеет роскоши, финансируемого VC, платящим людям, чтобы работать над ним полный рабочий день. Вместо этого наши пользователи не являются пассивными усыновителями; Они активные участники. Мы полагаемся друг на друга, чтобы найти достаточную ценность в проекте, чтобы внести свой вклад. Администраторы из крупных компаний, стартапы на всех этапах, студентах и любителей работают вместе, чтобы продвигать проект вперед. Каждая оптимизация, каждое исправление и каждая функция в конечном итоге возвращается в экосистему, принося пользу всем. Хотя этот подход имеет свои проблемы, он позволил сотням разработчиков собраться вместе по часовым поясам, названиям вакансий, компаниям и отраслям, чтобы создать то, чего ни одна команда не могла бы достичь в одиночку.

Импульс, лежащий в основе данных, ощутимый. Это больше не просто компонент-он все чаще является частью основания для всей экосистемы аналитических систем следующего поколения. В настоящее время существует много интересных проектов, таких как первоклассная поддержка неструктурированных данных, улучшенная фильтрация, поздняя материализация и динамические отжимания, а также более легкая поддержка Apache Aceberg. Кроме того, это включает в себя более быструю обработку наборов данных о большей, чем памяти, подразделений и многого другого.

Создание будущего: роль данных в аналитике в реальном времени, управляемой в реальном времени

Если вы создаете платформу данных, где эффективность имеет значение, серьезно рассмотрите данные о данных. Это быстро, открыто, расширяется и проверяется в битве, что продемонстрировало многочисленные компании, которые поставили на это будущее их продукты. Я искренне считаю, что данные о данных находятся в точке перегиба — мы видим реальное ускорение в росте сообщества, в необработанной производительности, глубине характеристики и надежности. Однако, как и во всем зрелом, полнофункциональном программном обеспечении, теперь для продвижения проекта требуется дополнительные инвестиции.

Сообщество растет, и относительный уровень способности участников растет, но, поскольку мы продолжаем добавлять новые и инновационные вещи, нам нужна ваша помощь. Если вы когда -либо мечтали узнать, внести свой вклад и формировать будущее внутреннего движения запроса, сейчас самое время погрузиться. Присоединяйтесь к сообществу (найдите нас в Интернете здесь), внесите код, просмотрите PRS, тестовые системы и ошибки файла. Будущее композируется, и данные о данных продвигают его вперед.

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Потратив много лет в качестве программиста C/C ++ Systems (базы данных и компиляторов), а также на стартапах машинного обучения (как это делает), Эндрю Лэмб теперь работает в InfluxData с Полом Диксом и талантливой командой инженеров на InfluxDB iox, … Прочитайте больше от Andrew Lamb

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *