Созданный командой в Intuit, который создал ArgoCD, Numaflow-это двигатель обработки потока с открытым исходным кодом на основе Kubernetes с пользовательским интерфейсом, который позволяет инженерам легко составлять трубопроводы обработки данных. Нет опыта в Kubernetes.
Созданный для высокопроизводительных рабочих нагрузок, Numaflow подключается к Kafka, Pulsar и SQS и может анализировать, фильтровать или обрабатывать поток данных, прежде чем отправлять их в пункт назначения. Легко масштабируемый, он будет работать так быстро, как вам нужно.
На прошлой неделе, на виртуальной конференции Kubecrash 2025, два члена команды Intuit в проекте описали, как Numaflow можно использовать для запуска трубопроводов ИИ.
Роль обработки потока в ИИ
Думайте о обработке потока как о основе ИИ.
Оказывается, в ИИ много обработки событий: инженерия функций, где функции рассчитываются и добавляются в модель; вывод, где обученная модель делает прогнозы; и, конечно, обучение, где модели получают последние данные.
Платформа обработки потоков в реальном времени необходима, если «вы хотите понять или обработать события, а затем попытаться ответить по мере их появления»,-сказал Шрихарша Яйи, менеджер продуктов Numaflow для Intuit. Например, поведение пользователя может быть отслеживается в режиме реального времени для предоставления рекомендаций. Мошенническая деятельность может быть сорвана, пока она еще продолжается.
Тем не менее, создание трубопроводов обработки данных может быть резкой задачей, не говоря уже о том, чтобы сделать их масштабируемыми и в реальном времени.
Общие проблемы в обработке событий на Kubernetes
По словам Яйи, Numaflow решил решить ряд проблем с обработкой событий на Kubernetes.
Во -первых, инженеры данных, которые знают процедурную логику, не были очень знакомы с платформами Java и Scala, на которых они должны были разработать. Также не существует много других разработчиков, которые также хотели привязать к потоковому двигателю.
«Мы наблюдали, где люди хотели иметь возможность обработки потока или структуру, которая находится за Java», — сказал Яйи.
Кроме того, настройка всего потока данных для какой -то обработки включала в себя написание большого количества кода шаблона, например, все дублированные функциональности, необходимые для нескольких очередей обмена сообщениями.
«Если я разработчик или, может быть, ML [machine learning] Парень, зачем мне действительно тратить много времени на написание этих интеграций снова и снова, когда я пишу эти новые трубопроводы или потребителей? » — спросил Яйи.
Наконец, масштабирование — это препятствие. При обработке событий необходимость масштабируемости была измерена с помощью отставания событий, но должна была быть выражена — через горизонтальный POD Autoscaler Kubernetes — через дополнительные стручки, необходимые в этот момент. Некоторые пользователи даже настраивали вручную необходимое количество стручков при увеличении трафика.
Как Numaflow решает проблемы с обработкой общих потоков
«Numaflow — это платформа без сервера для обработки потоков», — пояснила Krithika Vijayakumar, инженер -инженер программного обеспечения Intuit. Он был разработан, чтобы скрыть («абстрактные») все биты инфраструктуры от инженеров данных.
Numaflow позволяет инженерам ML «сосредоточиться только на обработке или выводе потока и устраняет необходимость понимания основной инфраструктуры», — сказал Виджаякумар.
Это также выкидывает необходимость выучить все сложности обработки событий, такие как раковины и источники, абстрагируя их с одним объектом данных.
«Мы понимаем, что инженеры ML в основном сосредоточены на полезной нагрузке, и их на самом деле не волнует, откуда они читают данные.
Таким образом, подробности о раковинах и источниках скрыты от инженеров, которые могут вернуться к беспокойству о своей логике вывода и обработки. Пользователи пишут свою логику вывода в качестве пользовательских функций (UDFS).
Кроме того, платформа автоматически масштабируется в зависимости от появления трафика. Больше нет вращения стручков вручную!
Построение трубопровода ИИ с Numaflow: демонстрация
Виджаякумар выполнил демонстрацию простой задачи распознавания изображения. Numaflow поставляется с помощью пользовательского интерфейса, так что вы можете увидеть трубопроводы, когда вы строите и запускаете их:
Данные извлекаются из источника и отправляются в вершину прогнозирования. Вершина является основным вычислительным компонентом, который в данном случае возвращает письменное описание содержимого изображения обратно в раковину, конечную точку HTTP. Сама вершина работает с местной моделью обработки естественного языка.
Сами трубопроводы определены в Yaml, декларативном языке.
Она также продемонстрировала проблеск трубопровода по обнаружению аномалий, один в производстве в течение года. Трубопроводы могут иметь несколько источников, раковин и UDF. UDFS может быть написан в смесь Python или Java. В графическом интерфейсе вершины могут отображать количество стручков, которые они запускают. Они работают независимо, поэтому каждый может масштабироваться в соответствии с их собственной рабочей нагрузкой.
«Довольно впечатляющий» стек данных
«Если вы местный магазин Kubernetes, это путь», — сказал инженер данных Дэн Янг в своем пошаговом видео о Numaflow. Он предположил, что Numaflow, наряду с Арго, может быть использован для создания «довольно впечатляющего стека обработки данных».
Если вы хотите узнать больше, инженеры Numaflow также будут представлены в предстоящих Allthingsopen и Kubecon North America.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Joab Jackson является старшим редактором нового стека, охватывающего облачные нативные вычисления и системы системы. Он сообщил об инфраструктуре и развитии ИТ в течение более 30 лет, в том числе в IDG и государственных компьютерных новостях. До этого он … читал больше от Джоаба Джексона