CNCF ищет требования для рабочих нагрузок AI/ML K8S-Portable

Если вы хотите без усилий перемещать свои рабочие нагрузки и моделирование с выводом и моделирования в облаках, что бы вам понадобилось от Kubernetes?

Cloud Native Computing Foundation (CNCF) хочет знать.

CNCF создает программу для сертификации распределений Kubernetes, которые могут запускать типы выбора рабочих нагрузок искусственного интеллекта. Но в первую очередь требуется набор требований и рекомендаций. И они ищут вашу помощь.

Идея состоит в том, чтобы повторить то, что CNCF сделал с руководством по соответствию для Kubernetes. До настоящего времени более 100 распределений K8S составили этот список.

Рабочая нагрузка, работающая на распределении Kubernetes-Conformant, независимо от того, находится ли она в публичном или частном облаке, может быть перемещена в другую соответствующую среду без изменений.

«Мы хотим сделать то же самое для рабочих нагрузок ИИ», — сказал CNCF CTO Крис Анишчик во время Kubecon + CloudNativecon в июне. Это потребует набора возможностей, API и конфигураций, которые должен предложить кластер Kubernetes (в дополнение к регулярному соответствию).

Идея состоит в том, чтобы обеспечить «базовую совместимость» в разных средах, а Aniszczyk объяснил, что в Kubecon + Cloudnativecon Japan далее объяснил в Japan.

Когда «CNCF началась, вся идея состояла в том, чтобы построить инфраструктуру, которая будет работать в каждом облаке», будь то публичная или частная, сказал он.

Вопрос о том, как определить требования искусственного интеллекта, проводится в SIG-архитектуре, в рамках недавно сформированной рабочей группы для этой задачи.

Цель этой группы состоит в том, чтобы «определить стандартизированный набор возможностей, API и конфигураций, которые кластер Kubernetes должен предложить для надежности и эффективного запуска AI/ML [machine learning] Рабочая нагрузка », — объясняет страница Github Рабочей группы.

Эта работа также подготовит основу для более широкого определения «соответствия ИИ облачного нативного», включая другие аспекты облачных нативных вычислений, такие как телеметрия, хранение и безопасность.

Google, Red Hat и другие коммерческие фирмы предоставляют ресурсы для проекта.

Commoditize Kubernetes

В ранних виртуальных дискуссиях общая цель состоит в том, чтобы сделать платформы рабочей нагрузки AI/ML максимально коммодитизированными. «Надежда состоит в том, чтобы свести к минимуму количество DIY и структуры, необходимые для запуска рабочих нагрузок AI/ML»,-написал участник рабочей группы.

Группа определила три типа рабочих нагрузок, хорошо подходящих для Kubernetes:

  • Крупномасштабная тренировка и тонкая настройка: Ключевые требования к платформе включают доступ к высокопроизводительным акселераторам, высокопроизводительной и топологической сети, планированию банд и масштабируемым доступом к данным.
  • Высокий вывод: Ключевые требования к платформе включают доступ к акселераторам, передовым управлению трафика и стандартизированные метрики для задержки мониторинга и пропускной способности.
  • Млопс трубопроводы: Ключевые требования к платформе включают в себя надежную пакетную систему заданий, систему очередей для управления конкуренцией ресурсов, безопасный доступ к другим услугам, таким как хранилище объекта и реестры модели, а также надежная поддержка CRD/операторов.

В проекте документа также перечислен набор рекомендуемых практик («должен») и требований к непрерывным требованиям («обязательно»), многие из которых основаны на недавних улучшениях Kubernetes для толпы ИИ.

Например, система, совместимая с AI Kubernetes, должна поддерживать динамическое распределение ресурсов (DRA), которая будет полностью доступна в предстоящем выпуске Kubernetes 1.34 в конце этого месяца. DRA предоставляет более гибкие и мелкозернистые элементы управления ресурсами, такие как возможность определения графических процессоров.

Он также должен поддерживать расширение вывода API Kubernetes Gateway, которое указывает шаблоны маршрутизации трафика для LLMS.

АВТОКАЛЕР КЛАНДУ должен иметь возможность масштабировать группы узлов вверх/вниз с конкретными запрашиваемыми типами ускорителя.

И так далее…

Программа сертификации

Отдельная, пока еще не названная группа будет отвечать за аккредитацию.

Программа сертификации будет иметь публичный веб -сайт с перечислением всех распределений Kubernetes, которые прошли тесты на соответствие. Они будут тестироваться ежегодно. Каждое распределение будет иметь завершенный контрольный список соответствия на основе YAML.

CNCF планирует представить готовое руководство по соответствию в этом году на Kubecon+CloudNativecon North America 2025 в Атланте, 10-13 ноября.

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Joab Jackson является старшим редактором нового стека, охватывающего облачные нативные вычисления и системы системы. Он сообщил об инфраструктуре и развитии ИТ в течение более 30 лет, в том числе в IDG и государственных компьютерных новостях. До этого он … читал больше от Джоаба Джексона

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *