Инженеры и разработчики DevOps знакомы с Kind, средой разработки Kubernetes, построенной на Docker. В натуральной форме плоскость управления и узлы кластера работают как отдельные контейнеры. В то время как вид легко использовать, доступ к графическим процессорам из кластера может быть сложным.
Этот учебник проводит вас через установку NVKind из NVIDIA, доброжелательного кластера с помощью графического процессора для запуска рабочих нагрузок облачного искусственного интеллекта в облачной нагрузке в среде разработки или тестирования.
Моя среда состоит из хост -машины, оснащенной одним графическим процессором NVIDIA H100. Мы стремимся развернуть стручок в кластере NVKind с доступом к тому же графическому процессору.
Предварительные условия
- Хостинг графического процессора на основе Ubuntu 22.04
- Идти
- Docker Engine
- Добрый
- В Бертл
- Шлем
- Nvidia Driver
- NVIDIA Container Toolkit
Пожалуйста, убедитесь, что Docker правильно настроен со временем выполнения NVIDIA в качестве дефолта. Затем вы можете получить доступ к GPU из контейнера Docker.
Скомпилируйте и установите двоичный файл nvkind
Клонировать репозиторий GitHub NVKind и построить бинарный.
Git Clone CD nvkind сделает sudo cp ./nvkind/usr/local/bin/1234 git clone cd nvkindmakesudo cp ./nvkind/usr/local/bin/
Выполните бинар NVKind, чтобы проверить, что сборка была успешно завершена.
Определите шаблон и создайте кластер
NVKind принимает файл конфигурации, который дает мелкозернистый элемент управления при обнаружении графических процессоров на рабочие узлы. Поскольку у нас есть только один графический процессор, мы познакомим его с рабочим узлом.
Создайте файл yaml с именем nvkind cluster.yaml с содержанием ниже:
ВИДЕ: Кластерная Apiversion: kind.x-k8s.io/v1alpha4 Узлы:-Роль: управляющая плоскость-Роль: Руководители работника:-Hostpath:/dev/null Containerpath:/var/run/nvidia-container-devices/all 12345678 КОНДЕС: Clusterapiversion: kind.x-x -sk8s.io/V1ALPHA4NODESPANEPANEPANES: xk-lepry-ploynodes: leprynepanes: krome-ploydes :—ploynodes :—ploynodes :—ploynodes :- leprynodes :- leprynodes :- Рабочий экстраэминты:-hostpath:/dev/null containerpath:/var/run/nvidia-container-devices/all
Наконец, мы создадим кластер на основе приведенного выше шаблона.
NVKind Cluster Create-config-template = nvkind-cluster.yaml 1 nvkind cluster create-config-template = nvkind cluster.yaml
Теперь вы можете получить доступ к кластеру с помощью Kubectl CLI.
Установите оператор GPU NVIDIA
С кластером на месте мы установим оператора GPU для доступа к базовому ускорителю ИИ.
helm Repo Добавить nvidia helm repo обновление обновления Helm Установка-wait-Generate-name \ -n Gpu-operator-create-namespace \ nvidia/gpu-operator-griver.enabled = false 12345 Helm Repo Add-nvidia helm Repo Установка-wait-wate-name-name \ -n-gpu-name-repee-names-names-reate-names-\ nvidia/gpu-operator-set river.enabled = false
Убедитесь, что все стручки в пространстве имен-оператора GPU-оператора являются здоровыми.
Запустите рабочую нагрузку для тестирования доступа GPU
Давайте создадим тестовый стручок для проверки доступа к графическим процессорам.
1
Мы успешно установили, настроили и протестировали кластер NVKind на графическом процессоре H100.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Janakiram MSV является основным аналитиком в Janakiram & Associates и адъюнкт -преподавателем Международного института информационных технологий. Он также является квалифицированным Google Cloud Developer, сертифицированным архитектором решений Amazon, сертифицированным разработчиком Amazon, … Подробнее от Janakiram MSV