Поставщик платформы потоковой передачи данных Confluent представила сегодня новую функцию, которая позволяет пользователям анализировать в режиме реального времени и исторические данные с одним запросом. Доступные в раннем доступе через Cloudent Cloud для Apache Flink, запросы снимка объединяют пакетные и потоковые данные для поддержки вариантов использования с низкой задержкой с данными обогащения.
Confluent также обнародовал функциональность IP -фильтрации для рабочих нагрузок Apache Flink и усилила свои частные сетевые функции для Flink.
Запросы на снимки сочетают данные из темах Kafka с контекстуальными данными, содержащимися в таблицах айсберга или озера Дельта из таких сред, таких как Databricks, Snowflake или другие. Вместо того, чтобы полагаться на две отдельные системы — и наборы затрат — для запроса этой информации, пользователи могут сделать это с ресурсами Confluent Cloud.
Запросы на снимках особенно выгодны для разработчиков, стремящихся создать агентские системы ИИ, приложения в реальном времени и рабочие нагрузки по обработке событий, в которых последние данные требуют исторического обогащения данных. Новая функция также полезна для того, чтобы помочь разработчикам понять, какие исторические данные являются наиболее значимыми для их случаев использования в реальном времени.
«С помощью запросов на снижение вы можете действительно быстро запросить все эти данные и интерактивно разрабатывать»,-прокомментировал Жан-Себастьян Бруннер, комбинированный директор по маркетингу продуктов. «Это может занять много времени, чтобы найти правильный запрос для правильного проекта. Поэтому, используя запросы на снимки, вы действительно можете помочь своему разработчику быть более эффективными в написании этого запроса».
Смешивание данных
Запросы на снимках основаны на нескольких аспектах confluent Cloud для Apache Flink. Они полагаются на оптимизатор запросов на основе Flink, который определяет, какие данные для запросов поступают по темам Kafka, а какие из вышеупомянутых форматов открытых столов. Эта функция использует TableFlow для материализации данных Kafka в таблицах Aceberg и Delta Lake, в то время как Flink также отвечает за процесс смешивания данных.
Смесь позволяет пользователям «иметь терабайт данных с долгой историей, а в Кафке вы можете иметь самые свежие данные в реальном времени»,-сказал Бруннер. «То, что мы делаем с запросами снимков, это объединить эти два набора данных в одном запросе». Процесс смешивания данных Confluent устраняет значительную сложность от пользователей. Организации просто выбирают, хотят ли они запросить традиционный режим потоковой передачи системы или режим снимка. Когда последнее выбран, пользователь записывает один запрос, в то время как решение задает запрос желаемого формата открытой таблицы и темы Kafka.
Затем платформа «смешивает данные и преобразует их без дубликатов», — сказал Бруннер. Шаг смешивания позволяет данным из TableFlow стать эффективно прикрепленным к теме KAFKA. Поиск из открытых форматов таблицы ускоряется из -за нескольких факторов, включая информацию о содержании таблицы, которую эти форматы легко обнажают.
По словам Бруннера, различные аспекты таблиц (включая метаданные и подробности о сжатии и уплотнении) эффективно функционируют как индекс. «Итак, если вы ищете конкретный ключ, как будто я хочу где -нибудь искать клиента X, мы можем найти это довольно легко, не отменив тему», — упомянул он. Получающиеся затраты, эффективность и повышение пособий по производительности не являютсятривиальными.
Разработчик ускорение
Значение, полученное в результате запросов на снижение, одинаково применимо к производству и разработке. В дополнение к поддержке агентских рабочих процессов искусственного интеллекта, в которых агентам необходимо перекрестно ссылаться на данные с низкой задержкой, основанные на взаимодействии с клиентами с эталонными данными о клиентах, например, эти запросы полезны для развертывания в реальном времени, таких как обнаружение мошенничества. «Для любого типа транзакции вам могут понадобиться исторические вещи, например, сколько раз этот пользователь совершал транзакцию, или как часто это было в этом месте», — сказал Бруннер. «Как часть этого, вы можете автоматически воспользоваться потоком таблицы».
Хотя запросы на снимки подтверждают эти критически важные приложения, они могли бы легко спроектироваться, чтобы ускорить жизненный цикл разработчика. Например, разработчикам может потребоваться запросить свои исторические данные, чтобы определить все контекстуальные факторы, необходимые для анализа случаев использования, таких как обнаружение мошенничества. В режиме потокового вещания им нужно было бы сделать несколько интерактивных запросов, чтобы получить эту информацию, «которая займет много времени», — сказал Бруннер. «Используя снимки, вы можете ускорить это, потому что вы можете сделать это в 100 раз быстрее».
Оптимизация запроса
Повышенная скорость и эффективность запросов на снимки напрямую связаны с оптимизацией запросов, используется в Flink. Организации просто указывают, что они хотят сделать запрос, например, определить факторы, относящиеся к обнаружению мошенничества в режиме реального времени. Способность оптимизатора запроса смешивать данные из таблиц обогащения и темах Kafka — это возможность найти соответствующие данные из каждого из этих ресурсов.
«Вам не нужно говорить, что это исходит от потока таблицы или от Кафки», — сказал Бруннер. «Оптимизатор запросов знает, где получить данные по темам Kafka или потоку таблицы. Это часть стека Confluent Flink. Фактически, оптимизатор может определить, что данные обогащения из форматов открытых таблиц не нужны, чтобы ответить на запрос и просто получить информацию из соответствующих тем Kafka.
Вопрос о семантике
Однако истинная выгода для разработчиков заключается в том, что когда оптимизатор запросов получает информацию из больших объемов справочных данных, он объединяет ее с данными Kafka в реальном времени и выявляет, какая информация имеет отношение к решению бизнес-проблемы, такой как обнаружение мошенничества. После того, как эта работа разработчика бэкэнд будет решена, этот конкретный запрос может быть введен в настройки производства для приложений в реальном времени. При таком подходе «Когда вы выполняете запрос, вы можете быть уверены, что ваш потоковый запрос будет работать и производить это и получить запросы, которые запускаются 24/7 на ваших последних данных», — сказал Бруннер.
Этот вариант использования подчеркивает разницу в семантике между запросами на снимки и запросами потокового режима. Первый основан на том, что Бруннер назвал «Состоянием мира» (или проблемой бизнеса) строго в то время, когда запрос выдается. Последнее основано на непрерывных обновлениях постоянным образом. Таким образом, после выполнения запросов на снимки, чтобы найти соответствующие данные для бизнес -проблемы, пользователи могут запускать потоковые запросы на основе этих факторов, чтобы постоянно обновлять их в режиме реального времени.
Говорит сама
Запросы Confluent Snapshot расширяют объем обработки потоковых данных, объединяя ее с пакетной обработкой для улучшения разработчиков и вариантов использования производства. Пользователи могут воспользоваться оптимизатором запроса Confluent в Flink для автоматизации большей части тяжелой работы, иначе, необходимой для запроса больших объемов данных в форматах открытых таблиц.
Еще более полезной может быть работа по смешиванию и преобразованию, которую поставщик сделал, чтобы сделать эти данные легко запрашивать вместе с данными из темах Кафки. Получившись в результате повышения производительности, производительности разработчиков и развертывания в реальном времени, говорят сами за себя.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Jelani Harper работал аналитиком, руководителем исследований, консультантом по информационным технологиям и журналистам более 10 лет. В течение этого времени он помогал бесчисленным поставщикам и публикациям в области управления данными, разрабатывать, сочинять и поместить … Подробнее от Jelani Harper