Учебное пособие: Настройте тестовый стенд нативного GPU с NVKIND Kubernetes

Инженеры и разработчики DevOps знакомы с Kind, средой разработки Kubernetes, построенной на Docker. В натуральной форме плоскость управления и узлы кластера работают как отдельные контейнеры. В то время как вид легко использовать, доступ к графическим процессорам из кластера может быть сложным.

Этот учебник проводит вас через установку NVKind из NVIDIA, доброжелательного кластера с помощью графического процессора для запуска рабочих нагрузок облачного искусственного интеллекта в облачной нагрузке в среде разработки или тестирования.

Моя среда состоит из хост -машины, оснащенной одним графическим процессором NVIDIA H100. Мы стремимся развернуть стручок в кластере NVKind с доступом к тому же графическому процессору.

Предварительные условия

  • Хостинг графического процессора на основе Ubuntu 22.04
  • Идти
  • Docker Engine
  • Добрый
  • В Бертл
  • Шлем
  • Nvidia Driver
  • NVIDIA Container Toolkit

Пожалуйста, убедитесь, что Docker правильно настроен со временем выполнения NVIDIA в качестве дефолта. Затем вы можете получить доступ к GPU из контейнера Docker.

Скомпилируйте и установите двоичный файл nvkind

Клонировать репозиторий GitHub NVKind и построить бинарный.

Git Clone CD nvkind сделает sudo cp ./nvkind/usr/local/bin/1234 git clone cd nvkindmakesudo cp ./nvkind/usr/local/bin/

Выполните бинар NVKind, чтобы проверить, что сборка была успешно завершена.

Определите шаблон и создайте кластер

NVKind принимает файл конфигурации, который дает мелкозернистый элемент управления при обнаружении графических процессоров на рабочие узлы. Поскольку у нас есть только один графический процессор, мы познакомим его с рабочим узлом.

Создайте файл yaml с именем nvkind cluster.yaml с содержанием ниже:

ВИДЕ: Кластерная Apiversion: kind.x-k8s.io/v1alpha4 Узлы:-Роль: управляющая плоскость-Роль: Руководители работника:-Hostpath:/dev/null Containerpath:/var/run/nvidia-container-devices/all 12345678 КОНДЕС: Clusterapiversion: kind.x-x -sk8s.io/V1ALPHA4NODESPANEPANEPANES: xk-lepry-ploynodes: leprynepanes: krome-ploydes :—ploynodes :—ploynodes :—ploynodes :- leprynodes :- leprynodes :- Рабочий экстраэминты:-hostpath:/dev/null containerpath:/var/run/nvidia-container-devices/all

Наконец, мы создадим кластер на основе приведенного выше шаблона.

NVKind Cluster Create-config-template = nvkind-cluster.yaml 1 nvkind cluster create-config-template = nvkind cluster.yaml

Теперь вы можете получить доступ к кластеру с помощью Kubectl CLI.

Установите оператор GPU NVIDIA

С кластером на месте мы установим оператора GPU для доступа к базовому ускорителю ИИ.

helm Repo Добавить nvidia helm repo обновление обновления Helm Установка-wait-Generate-name \ -n Gpu-operator-create-namespace \ nvidia/gpu-operator-griver.enabled = false 12345 Helm Repo Add-nvidia helm Repo Установка-wait-wate-name-name \ -n-gpu-name-repee-names-names-reate-names-\ nvidia/gpu-operator-set river.enabled = false

Убедитесь, что все стручки в пространстве имен-оператора GPU-оператора являются здоровыми.

Запустите рабочую нагрузку для тестирования доступа GPU

Давайте создадим тестовый стручок для проверки доступа к графическим процессорам.

1

Мы успешно установили, настроили и протестировали кластер NVKind на графическом процессоре H100.

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Janakiram MSV является основным аналитиком в Janakiram & Associates и адъюнкт -преподавателем Международного института информационных технологий. Он также является квалифицированным Google Cloud Developer, сертифицированным архитектором решений Amazon, сертифицированным разработчиком Amazon, … Подробнее от Janakiram MSV

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *