Как Influxdb 3 приносит обработку непосредственно в базу данных

Influxdata спонсировала этот пост.

Когда реальные системы зависят от решений с разделенной секундой, база данных должна обеспечивать интеллект, а не только хранилище. Традиционные базы данных предназначены для быстрого сбора и извлечения информации, но современные промышленные системы, цифровые близнецы и предсказательные приложения требуют больше, чем скорость. Они нуждаются в встроенном интеллекте, поэтому понимание появляется так же быстро, как и сами данные.

«Большинство баз данных проглатывают данные, хранят их и надеются быстро прочитать их», — объяснил Питер Барнетт, руководитель продукта в InfluxData. «Часто они не выполняют никакого фактического анализа или обработки; они просто хранят данные. Мы хотели создать за пределами хранилища, чтобы превратить базу данных в активное разведывательное движок, где данные не просто управляются: он активно обрабатывается и проанализирован».

Influxdb 3 вводит эту возможность, создавая интеллект непосредственно в базу данных. Его двигатель обработки на питоне, гибкий дизайн развертывания и бесцветная архитектура объединяются, чтобы устранить накладные расходы традиционных трубопроводов и обеспечить аналитику в реальном времени, где происходит действие.

Двигатель обработки Python: AI, где живет данные

В основе этого сдвига лежит виртуальная машина Python (VM), встроенная непосредственно в базу данных. «Если вы хотите воспользоваться новыми инструментами искусственного интеллекта, которые могут писать сценарии и ускорить разработку, Python является одним из самых известных и широко принятых языков для развития»,-сказал Барнетт.

Популярная структура Data Science также предлагает множество библиотек аналитики и обработки данных (включая Numpy и Polars), которые интегрируются с современными библиотеками ИИ. Двигатель обработки состоит из плагинов — на заказ сценариев Python, которые могут получить доступ к любой библиотеке Python, разработанные для покрытия диапазона вариантов использования двигателя, включая обнаружение аномалий, прогнозирование и предупреждение.

«Мы также построили наш собственный протокол строителя линейков поверх него, и это значительно упрощает взаимодействие с двигателем обработки», — добавил Барнетт. «Эти плагины могут выполнять записи, графики и по требованию, поэтому вы можете делать преобразования данных, агрегации и специальные действия в режиме реального времени».

Плагины помогают пользователям контролировать сложные системы, такие как цифровые близнецы или сетевая активность в режиме реального времени, одновременно обнаруживая тонкие изменения, чтобы предвидеть проблемы до их возникновения.

Развертывания краев: интеллект без накладных расходов

Общая прибыль внедрения интеллекта непосредственно в базе данных увеличивается, когда InfluxDB реализуется на краю. Традиционные накладные расходы, связанные с отправкой данных между сетями и между сетями для приложений временных рядов, испаряются, когда пользователи устанавливают двигатель на крайнее устройство. По словам Барнетта, в дополнение к неотъемлемым затратам на настройку и поддержание трубопроводов данных они просто расширяют площадь поверхности «где все может пойти не так».

И наоборот, эффективность ядра Influxdb 3, открытого исходного кода, коллекционера недавних данных и корпоративной версии, которая может выполнять обработку краев, трудно отрицать. Первый может «жить на этих устройствах меньших краев для запросов в режиме реального времени, со значительно более низкими накладными расходами»,-сказал Барнетт. Он оптимизирован для вариантов использования, охватывающих мониторинг систем в реальном времени, сбор и преобразование данных, потоковую аналитику, оповещение датчиков и все остальное, где необходимо собирать и обработать данные с быстрыми скоростями.

Без дисков архитектура: масштаб, устойчивость и экономия стоимости

Частью того, что делает возможным эти границы развертывания, является архитектура без дисков Influxdb 3, которая обеспечивает высокую доступность (HA), мгновенные отказы и бесшовную масштабируемость. Поскольку двигатель хранит данные внешне через паркет в хранилище объектов (включая AWS S3 и Hazure Blob Storage), существует чрезвычайно низкие накладные расходы на хранение.

Должеса на этот подход очевиден. Вместо того, чтобы хранить данные временных рядов с высоким объемом объемов на одной машине и реплицировать их другим после настройки кластерной среды, данные могут приземлиться в дешевом хранилище объектов. Другие преимущества этой архитектуры относятся к производительности, отсутствию сложности и минимизации точек отказа.

«Мы можем сохранить все эти данные в хранилище объектов, и вы можете указать на них, и через несколько секунд вы можете начать читать эти данные из разных узлов», — пояснил Барнетт. «Для вас это просто более простой способ создать коммерческую среду, которая в противном случае займет гораздо больше времени, с большими накладными расходами и, вероятно, реализацией Kubernetes».

Этот прирост производительности имеет решающее значение для чувствительных ко времени использования, от отказов оборудования, таких как удары молнии на самолетах до стихийных бедствий, где быстрый анализ и восстановление имеют решающее значение.

Фонд FDAP

Под капюшоном, поддерживаемый Apache FDAP Stack-FlightSQL, DataFusion, стрелка и паркет-поддерживает эту архитектуру. Apache Arrow Flight обеспечивает высокоскоростные запросы. DataFusion обеспечивает оптимизатор SQL на основе ржавчины и двигатель выполнения с использованием стрелки Apache в качестве модели памяти. Паркет добавляет сжатие и эффективность, необходимые для массовых рабочих нагрузок временных рядов.

С помощью этого формата база данных имеет «высоко оптимизированное решение для хранения, а коэффициент сжатия на паркете феноменально лучше, чем многие другие решения для хранения, которые мы видели», — сказал Барнетт. «Мы можем получить гораздо более высокое сжатие и гораздо более низкий след хранения, который приводит к гораздо лучшей экономии затрат и повышению эффективности в этих вариантах использования высокой кардинальности».

Продолжая импульс

InfluxDB 3 превращает базу данных из пассивного хранилища в активное разведывательное двигатель, и импульс не замедляется. InfluxData отправляет ежемесячные обновления по всему Core и Enterprise InfluxDB 3; Версии 3.2 и 3.3 имеют управляемые плагины по обработке двигателя для обычных задач временных рядов. Последний релиз, Influxdb 3.4, добавил автоматические функции настройки и рабочего процесса как для Core, так и для Enterprise. Версия 3.5, запланированная на выпуск в конце сентября, собирается представить еще больше способов использования двигателя обработки в ежедневных рабочих процессах.

Внедряя двигатель обработки с питоном непосредственно в базу данных и сочетая его с без дисковой архитектуры, построенной на стеке FDAP, InfluxDB 3 складывает традиционный разрыв между сбором данных и анализом. Для разработчиков это означает меньше инфраструктуры для управления, более быстрых путей от необработанных сигналов до действенного понимания, и платформу, которая продолжает развиваться на предсказуемой каденции.

InfluxData является создателем PlupuxDB, ведущей платформы временных рядов. Более 1900 клиентов используют InfluxDB для сбора, хранения и анализа данных всех временных рядов в любом масштабе. Разработчики могут запрашивать и анализировать свои данные с временем, чтобы предсказать, реагировать и адаптироваться в режиме реального времени. Узнайте больше новейших из InfluxData Trending Stories YouTube.com/ThenewStack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Jelani Harper работал аналитиком, руководителем исследований, консультантом по информационным технологиям и журналистам более 10 лет. В течение этого времени он помогал бесчисленным поставщикам и публикациям в области управления данными, разрабатывать, сочинять и поместить … Подробнее от Jelani Harper

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *