CNCF спонсировал этот пост.
За последний год вывод ИИ стал значительно более ресурсоемким из-за экспоненциального роста размера и возможностей больших языковых моделей (LLM). Эти модели не только больше, но и более функциональны, обеспечивая широкий спектр приложений: от сложных рассуждений и следования инструкциям до узкоспециализированных задач, специфичных для предметной области.
Поскольку масштабы и стратегическое значение этих рабочих нагрузок растут, Kubernetes становится предпочтительной платформой для развертывания служб вывода, предлагая масштабируемость и зрелость экосистемы, необходимые для эффективной эксплуатации LLM.
Kubernetes хорошо подходит для рабочих нагрузок вывода, предоставляя гибкую платформу для контейнеризации моделей, масштабирования в зависимости от спроса и интеграции инструментов телеметрии и наблюдения. Однако по мере того, как организации расширяются по всему миру или требуют более жесткого контроля над расходами и соблюдением требований, развертывания одного кластера может оказаться недостаточным.
Чтобы удовлетворить эти растущие потребности, поставщики услуг искусственного интеллекта обращаются к мультикластерному выводу, при котором рабочие нагрузки LLM распределяются по нескольким кластерам Kubernetes. Хотя мультикластерный логический вывод предлагает такие преимущества, как региональная избыточность, локальность данных и лучшее использование ресурсов, он также вводит новый уровень сложности.
Проблемы с многокластерным выводом ИИ
- Согласованность развертываний LLM в кластерах: Одной из основных задач является обеспечение единообразия развертывания моделей в кластерах. Без централизованной структуры управления командам приходится вручную реплицировать конвейеры вывода, управлять отклонениями конфигурации и обеспечивать распространение обновлений без простоев — и все это подвержено ошибкам и трудно масштабируется.
- Эффективное использование дефицитных вычислительных ресурсов: Рабочие нагрузки ИИ часто зависят от графических процессоров или других ускоренных ресурсов, которые дороги и не всегда доступны в каждом месте или кластере. Для многокластерного развертывания необходимы интеллектуальные механизмы для размещения рабочих нагрузок там, где доступны подходящие вычисления на графическом процессоре и другие ускоренные ресурсы, без ущерба для задержек или производительности.
- Производительность и доступность конечных точек вывода: Предоставление критически важных для бизнеса услуг искусственного интеллекта означает, что низкая задержка и высокая доступность не подлежат обсуждению. Конечные точки вывода должны быстро реагировать, масштабироваться в соответствии с потребностями и корректно выполнять аварийное переключение, если кластер или местоположение становятся недоступными, при этом соблюдая требования соответствия и соглашения об уровне обслуживания (SLA) в разных географических регионах.
Для решения этих проблем два проекта CNCF — Kubernetes AI Toolchain Operation (KAITO) и KubeFleet — становятся ключевыми игроками в современном многокластерном мире искусственного интеллекта.
KAITO: оптимизация и развертывание рабочих нагрузок и ресурсов ИИ
KAITO предоставляет декларативный механизм управления рабочими процессами LLM. Он поддерживает:
- Управление как готовыми моделями, так и моделями, которые можно использовать самостоятельно (BYO), с помощью рабочих пространств KAITO.
- Автоматизированное предоставление ресурсов для различных размеров LLM.
- Оптимизация многоузлового хранилища и вычислений.
- Готовая телеметрия для получения аналитических сведений о состоянии и производительности.
Абстрагируя логические выводы в пользовательские ресурсы Kubernetes, KAITO обеспечивает согласованное развертывание моделей в кластерах с минимальным вмешательством вручную.
KubeFleet: интеллектуальное распределение рабочей нагрузки по кластерам
KubeFleet — это многокластерный оркестратор рабочих нагрузок, предназначенный для облегчения размещения рабочих нагрузок в Kubernetes. Он может оценивать свойства кластера, включая доступность ресурсов, чтобы размещать развертывания в наиболее подходящем кластере. Независимо от того, пытаетесь ли вы оптимизировать использование графического процессора, обеспечить геоизбыточность или беспрепятственно распространять обновления вашего механизма вывода в тестовых, промежуточных и производственных кластерах, KubeFleet предоставит вам необходимый контроль.
Объедините KAITO и KubeFleet для создания бесшовного мультикластерного искусственного интеллекта
В то время как KAITO обеспечивает четкое определение и согласованность служб вывода на уровне кластера, KubeFleet управляет глобальной стратегией размещения:
- KubeFleet определяет, где доступны вычисления на графическом процессоре, обеспечивая при этом оптимальный выбор этих кластеров на основе таких ключевых свойств, как стоимость, местоположение и доступность ресурсов.
- KAITO развертывает модели в кластеры, соответствующие стратегии размещения KubeFleet, обеспечивая размещение моделей там, где они могут работать эффективно.
- KAITO управляет кластером, занимается подготовкой модели, распределением ресурсов и наблюдаемостью.
Такое разделение труда обеспечивает хорошо дифференцированную архитектуру: KubeFleet фокусируется на том, куда должны направляться рабочие нагрузки ИИ, а KAITO управляет тем, как они выполняются после прибытия.
Вместе KubeFleet и KAITO образуют мощный набор инструментов для построения масштабируемых и эффективных конвейеров вывода ИИ в любом количестве кластеров.
Заключение
Многокластерный ИИ-вывод дает явные преимущества в устойчивости, производительности и соответствии нормативным требованиям, но только после того, как будет устранена сложность эксплуатации. KAITO и KubeFleet помогают решить эту проблему следующим образом:
- Обеспечение последовательного развертывания модели и управления жизненным циклом.
- Оптимизация распределения рабочей нагрузки между кластерами.
- Предоставление инструментов, необходимых для эффективного масштабирования вывода ИИ.
Если вы используете службы искусственного интеллекта в Kubernetes и хотите масштабировать их, пришло время изучить KAITO и KubeFleet. Вместе они обеспечивают чистый, декларативный и интеллектуальный подход к глобальному выводу ИИ в масштабе.
Присоединяйтесь к сообществам KubeFleet и KAITO.
KubeFleet и KAITO находятся на переднем крае решения реальных задач в области мультикластерного вывода ИИ. По мере развития этих инструментов будущее искусственного интеллекта в Kubernetes зависит от идей, отзывов и вклада более широкого сообщества облачных разработчиков.
Являетесь ли вы разработчиком платформ, специалистом по машинному обучению (ML) или участником открытого исходного кода, мы приглашаем вас принять участие. Помогите нам сформировать дорожные карты, внести свой вклад в функции, поделиться вариантами использования и сотрудничать в создании более интеллектуальной и масштабируемой инфраструктуры искусственного интеллекта в кластерах.
Начните сегодня:
- Проект KAITO на GitHub
- Проект KubeFleet на GitHub
KubeCon + CloudNativeCon North America 2025 пройдет 10–13 ноября в Атланте, штат Джорджия. Зарегистрируйтесь сейчас.
Фонд Cloud Native Computing Foundation (CNCF) размещает критически важные компоненты глобальной технологической инфраструктуры, включая Kubernetes, Prometheus и Envoy. CNCF — это нейтральная площадка для сотрудничества, объединяющая ведущих разработчиков отрасли, конечных пользователей и поставщиков. Узнайте больше Последние новости от CNCF TRENDING STORIES YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Сачи Десаи — менеджер по продукту в Microsoft, где она занимается улучшением условий выполнения рабочих нагрузок ИИ и настройкой планировщика в службе Azure Kubernetes (AKS). Она разработала функции, которые упрощают получение выводов и тонкую настройку контейнерных моделей и… Подробнее от Сачи Десаи Саймон Уэйт — старший менеджер по продуктам в команде Azure Kubernetes Service (AKS), где он занимается управлением мультикластерами с помощью Azure Kubernetes Fleet Manager и проекта KubeFleet CNCF Sandbox. Узнайте больше от Саймона Уэйта