Учебное пособие: Настройте тестовый стенд нативного GPU с NVKIND Kubernetes

Инженеры и разработчики DevOps знакомы с Kind, средой разработки Kubernetes, построенной на Docker. В натуральной форме плоскость управления и узлы кластера работают как отдельные контейнеры. В то время как вид легко использовать, доступ к графическим процессорам из кластера может быть сложным.

Этот учебник проводит вас через установку NVKind из NVIDIA, доброжелательного кластера с помощью графического процессора для запуска рабочих нагрузок облачного искусственного интеллекта в облачной нагрузке в среде разработки или тестирования.

Моя среда состоит из хост -машины, оснащенной одним графическим процессором NVIDIA H100. Мы стремимся развернуть стручок в кластере NVKind с доступом к тому же графическому процессору.

Предварительные условия

Хостинг графического процессора на основе Ubuntu 22.04
Идти
Docker Engine
Добрый
В Бертл
Шлем
Nvidia Driver
NVIDIA Container Toolkit

Пожалуйста, убедитесь, что Docker правильно настроен со временем выполнения NVIDIA в качестве дефолта. Затем вы можете получить доступ к GPU из контейнера Docker.

Скомпилируйте и установите двоичный файл nvkind

Клонировать репозиторий GitHub NVKind и построить бинарный.

Git Clone CD nvkind сделает sudo cp ./nvkind/usr/local/bin/1234 git clone cd nvkindmakesudo cp ./nvkind/usr/local/bin/

Выполните бинар NVKind, чтобы проверить, что сборка была успешно завершена.

Определите шаблон и создайте кластер

NVKind принимает файл конфигурации, который дает мелкозернистый элемент управления при обнаружении графических процессоров на рабочие узлы. Поскольку у нас есть только один графический процессор, мы познакомим его с рабочим узлом.

Создайте файл yaml с именем nvkind cluster.yaml с содержанием ниже:

ВИДЕ: Кластерная Apiversion: kind.x-k8s.io/v1alpha4 Узлы:-Роль: управляющая плоскость-Роль: Руководители работника:-Hostpath:/dev/null Containerpath:/var/run/nvidia-container-devices/all 12345678 КОНДЕС: Clusterapiversion: kind.x-x -sk8s.io/V1ALPHA4NODESPANEPANEPANES: xk-lepry-ploynodes: leprynepanes: krome-ploydes :—ploynodes :—ploynodes :—ploynodes :- leprynodes :- leprynodes :- Рабочий экстраэминты:-hostpath:/dev/null containerpath:/var/run/nvidia-container-devices/all

Наконец, мы создадим кластер на основе приведенного выше шаблона.

NVKind Cluster Create-config-template = nvkind-cluster.yaml 1 nvkind cluster create-config-template = nvkind cluster.yaml

Теперь вы можете получить доступ к кластеру с помощью Kubectl CLI.

Установите оператор GPU NVIDIA

С кластером на месте мы установим оператора GPU для доступа к базовому ускорителю ИИ.

helm Repo Добавить nvidia helm repo обновление обновления Helm Установка-wait-Generate-name \ -n Gpu-operator-create-namespace \ nvidia/gpu-operator-griver.enabled = false 12345 Helm Repo Add-nvidia helm Repo Установка-wait-wate-name-name \ -n-gpu-name-repee-names-names-reate-names-\ nvidia/gpu-operator-set river.enabled = false

Убедитесь, что все стручки в пространстве имен-оператора GPU-оператора являются здоровыми.

Запустите рабочую нагрузку для тестирования доступа GPU

Давайте создадим тестовый стручок для проверки доступа к графическим процессорам.

Мы успешно установили, настроили и протестировали кластер NVKind на графическом процессоре H100.

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Janakiram MSV является основным аналитиком в Janakiram & Associates и адъюнкт -преподавателем Международного института информационных технологий. Он также является квалифицированным Google Cloud Developer, сертифицированным архитектором решений Amazon, сертифицированным разработчиком Amazon, … Подробнее от Janakiram MSV

Разработка сайтов в Гомеле

Добавить комментарий Отменить ответ

Похожие записи

Графические процессоры никогда не подписались на эту работу по безопасности искусственного интеллекта

Введение в непрерывную интеграцию и непрерывную доставку (CI/CD)

Ускорить петли Python: проверенные методы, чтобы быстрее сделать ваш код

Может ли OpenSearch выключить эти плохие результаты поиска вектора?

EBPF имеет светлое будущее в развитии инфраструктуры

Q & A: Как Warp 2.0 сравнивается с Claude Code и Gemini CLI

Mirantis захватывает разрастание контейнера с открытым исходным кодом K0Rdent

Сохраните ценные токены Genai с этим простым трюком

За пределами базового RAG: агенты ИИ для контекстно-зависимых ответов

Cloudbolt приобретает Stormforge для улучшения оптимизации Kubernetes

Как FAL.AI перешел от оптимизации вывода к хостингу изображения и видео моделей

Почему поддержка OTLP в Google Cloud важна для вашего конвейера телеметрии

Вам тоже может быть интересно:

Intel назначает Lip-Bu Tan в качестве следующего генерального директора

Брайан Армстронг говорит, что Coinbase потратил 50 миллионов долларов в иске SEC — и победил его

Мета в переговорах о приобретении фирмы AI Chip Furiosaai, согласно отчету

Как я подкаст: летний альбом / зимний альбом Джоди Авирган

Что узнать о неопределенном будущем Тиктока в США и людях, которые хотят его купить

Coreweave Цены на IPO, чтобы собрать не менее 2,2 миллиарда долларов. И теперь игры начинаются.

Бен Горовиц жертвует киберзаторный флот в полицию Лас -Вегаса

Google Workspace получает потоки автоматизации, резюме в стиле подкаста

Группа под руководством Fei-Fei Li предполагает, что законы о безопасности искусственного интеллекта должны предвидеть будущие риски

CHATGPT попал в жалобу на конфиденциальность по поводу клеветнических галлюцинаций

Геотермальная единорога Fervo Energy может IPO уже в следующем году

Жаловая ванна, первое нативное приложение для iPhone Porn, прибывает в ЕС