На KubeCon+CloudNativeCon North America в прошлом месяце Cloud Native Computing Foundation приняла программное обеспечение KServe с открытым исходным кодом в качестве инкубационного проекта.
Известность KServe в облачном пространстве показывает, насколько Kubernetes стал основой для вычислений ИИ, предлагая предприятиям масштабируемую платформу с открытым исходным кодом для запуска собственного генеративного ИИ и прогнозной работы.
«Растущая сложность современных рабочих нагрузок искусственного интеллекта вызывает острую потребность в надежных, стандартизированных платформах обслуживания моделей в Kubernetes», — заявил в своем заявлении спонсор TOC Кевин Ванг. «Ориентирование на масштабируемость, особенно на многоузловой вывод для больших языковых моделей, является ключом к обеспечению эффективных решений по обслуживанию и развертыванию облачной инфраструктуры искусственного интеллекта».
По данным CNCF, команда разработчиков KServe будет работать над критериями градации CNCF с целью стать «полностью абстрактной, гибкой платформой вывода, где пользователи сосредотачиваются исключительно на моделях и предварительной/постобработке, в то время как KServe занимается оркестровкой, масштабированием, управлением ресурсами и развертыванием».
Истоки и эволюция KServe
Что делает KServe? Он определяет, как модель обслуживается внутри организации, предоставляя для доступа единый API.
Это «дает нам стандартный масштабируемый способ запуска самостоятельных моделей локально и дает каждой модели стабильную внутреннюю конечную точку, с которой может взаимодействовать шлюз», — объяснила старший инженер Bloomberg по инфраструктуре искусственного интеллекта Алекса Гриффит в презентации на KubeCon.
Google, IBM, Bloomberg, Nvidia и Seldon Technologies LLC совместно создали KServe, запустив его в 2019 году первоначально в рамках проекта KubeFlow (как «KFServing»).
Затем проект был передан в дар LF AI and Data Foundation в 2022 году, а затем представлен в CNCF в сентябре прошлого года. В сентябре 2022 года проект был переименован с KFServing на автономный KServe, выйдя из Kubeflow. Затем в сентябре 2025 года KServe перешла в CNCF в качестве инкубатора.
Первоначально программное обеспечение было создано для прогнозного вывода, но было расширено для использования генеративного искусственного интеллекта на основе LLM, когда ChatGPT привлек внимание общественности. По словам Гриффита, каждую проблему, с которой Bloomberg сталкивался при запуске программ LLM, он мог использовать для создания поддержки KServe для работы с генеративным искусственным интеллектом в KServe.
Хотя KServe был создан для прогнозного вывода, проект «создал все эти новые функции для генеративного искусственного интеллекта», – Алекса Гриффит из Bloomberg.
Понимание основных компонентов KServe
KServe на самом деле состоит из трех компонентов. Один — тезка Контроллер KServe Kubernetesкоторый согласовывает определения пользовательских ресурсов (CRD) KServe, которые определяют ресурсы ML и другие объекты Kubernetes. CRD InferenceService управляет прогнозирующим выводом, а CRD LLMInferenceService охватывает варианты использования GenAI.
ModelMesh — это уровень управления и маршрутизации моделей, созданный для быстрого изменения вариантов использования моделей. А протокол открытого вывода предоставляет стандартный способ через HTTP или gRPC для выполнения вывода модели машинного обучения в средах выполнения обслуживания для различных платформ машинного обучения.
«На техническом фронте богатая интеграция KServe с Envoy, Knative и Gateway API прочно закрепляет его в экосистеме CNCF», — объяснила Фасила К., спонсор Комитета технического надзора CNCF, в своем заявлении. «Гостеприимный характер сообщества облегчил участие новых участников и последователей, что красноречиво говорит о его здоровье и инклюзивности».
Ключевые особенности прогнозирующего и генеративного искусственного интеллекта
Для задач прогнозного моделирования KServe предлагает:
- Мультифреймворк поддержка, охватывающая TensorFlow, Python PyTorch и scikit-learn, XGBoost, ONNX и другие.
- Интеллектуальная маршрутизация которые понимают требования к маршрутизации для компонентов предиктора, преобразователя и объяснителя с автоматическим управлением трафиком.
- Расширенные шаблоны развертывания для развертываний Canary, конвейеров вывода и ансамблей с InferenceGraph.
- Автомасштабированиевключая возможности масштабирования до нуля.
А для генеративного ИИ программное обеспечение обеспечивает:
- LLM-оптимизированный: OpenAI-совместимый протокол вывода для плавной интеграции с большими языковыми моделями.
- Ускорение графического процессора: Высокопроизводительное обслуживание с поддержкой графического процессора и оптимизированным управлением памятью для больших моделей.
- Кэширование модели: Интеллектуальное кэширование моделей для сокращения времени загрузки и улучшения задержки ответа для часто используемых моделей.
В настоящее время у проекта 19 сопровождающих и более 300 участников. Более 30 компаний внедрили эту технологию и либо вносят свой вклад в проект, либо просто используют ее. Он собрал более 4600 звезд GitHub.
ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Джоаб Джексон — старший редактор The New Stack, специализирующийся на облачных вычислениях и системных операциях. Он освещал вопросы ИТ-инфраструктуры и ее развития более 30 лет, в том числе работал в IDG и Government Computer News. До этого он… Подробнее от Джоава Джексона