Как добиться производительности графического процессора «голого железа» в конфиденциальных виртуальных машинах

ПАРИЖ — На OpenInfra Summit Europe 2025 компания NVIDIA хотела ясно дать понять разработчикам, операторам и пользователям ИИ: если вы хотите запускать чувствительные рабочие нагрузки ИИ на графических процессорах где угодно — локально, в публичных облаках или на периферии — вам нужна как изолированная программная среда на уровне виртуальных машин (VM), так и аппаратно поддерживаемая конфиденциальность памяти. Это означает, что, по словам Звонко Кайзера, главного системного инженера NVIDIA, вам следует объединить Kata Containers (облегченные виртуальные машины для контейнеров) с конфиденциальными вычислениями, чтобы сохранить производительность графического процессора без ОС, не позволяя оператору облака проверять вашу модель и данные.

Kata, для тех из вас, кто не знает, — это проект с открытым исходным кодом, который сочетает в себе легкие виртуальные машины и среду выполнения контейнеров. Он использует технологию аппаратной виртуализации для запуска отдельной виртуальной машины для каждого контейнера, обеспечивая надежную изоляцию между контейнерами. Каждый контейнер, в свою очередь, использует минимальное, урезанное ядро Linux. Kata Containers стремится предложить преимущества производительности контейнеров, а также безопасность и изоляцию рабочих нагрузок виртуальных машин.

Понимание контейнеров Kata и облегченных виртуальных машин

«Kata — это микро-VM… она просто вписывается в облачное пространство», — сказал Кайзер аудитории. Он утверждал, что Kata устраняет недостаток среды выполнения изолированного контейнера, сохраняя при этом интеграцию с рабочими процессами Kubernetes.

Конфиденциальные вычисления привносят в игру данные в памяти и шифрование приложений. Мы уже давно обеспечиваем безопасность посредством шифрования, когда данные хранятся или передаются по сети. Теперь оно у нас тоже есть в памяти.

Цель их объединения, объяснил Кайзер, — это переворот традиционной модели угроз. Классическое использование Kata предполагает, что рабочая нагрузка не является доверенной, поэтому оно защищает хост от контейнера. Конфиденциальные вычисления, использующие функции безопасности ЦП, такие как SEV/TDX, утверждают, что: «Мы не доверяем инфраструктуре». Таким образом, зашифровав виртуальную машину, даже ваш облачный провайдер не сможет сделать снимок или проверить гостевую память.

Роль конфиденциальных вычислений и аттестации

Чтобы убедиться, что это действительно работает, он подчеркнул важность аттестации как механизма, объединяющего стек. Только после криптографического подтверждения того, что виртуальная машина и ее состояние загрузки/гостя соответствуют ожидаемой конфигурации, следует раскрывать секреты или ключи для рабочей нагрузки. Это обеспечивает полнофункциональную модель доверия на уровне управления, рабочих узлах и модулях. «Процесс доказательства того, что ваше состояние… действительно является тем состоянием, которое вы измеряете», является основой конфиденциального развертывания, — сказал Кайзер.

ИИ и NVIDIA объединяются, используя их, чтобы вы могли использовать графические процессоры как «голое железо» внутри конфиденциальных виртуальных машин. Кайзер объяснил, как NVIDIA работает над тем, чтобы рабочие нагрузки графических процессоров «переносились» в Kata/конфиденциальные виртуальные машины без потери производительности или функциональности.

Достижение производительности графического процессора без операционной системы для рабочих нагрузок ИИ

Для этого NVIDIA использует строительные блоки Kubernetes, оператор графического процессора и интерфейс контейнерных устройств (CDI), чтобы драйверы, библиотеки и сопоставления устройств представлялись контейнерам точно так же, как если бы они были на «голом железе». «Мы просто взяли этот шаблон, который у нас уже есть на голом железе, и просто вставили его в конец, чтобы контейнер, работающий в Ката, чувствовал и вел себя так же, как и на голом железе».

Эти усилия включают поддержку сквозной передачи PCIe, виртуализации ввода-вывода с одним корнем (SR-IOV), удаленного прямого доступа к памяти GPUDirect (RDMA) и конфигураций среды выполнения для каждого модуля, поэтому один модуль может использовать сквозную передачу PF, а другой — SR-IOV. Важно отметить, что использование Kata гостевого ядра отделяет пользовательское пространство от изменений ядра хоста. Это снижает риск того, что обновление хоста приведет к поломке драйверов графического процессора внутри виртуальной машины рабочей нагрузки.

Решение проблем топологии PCIe с помощью NVIDIA VRA

Это может показаться сложным, но, по словам Кайзера, самая сложная часть — это топология. Ответ NVIDIA — эталонная архитектура виртуализации (VRA). Вскоре NVIDIA опубликует более подробно этот подход к решению сложной проблемы топологии PCIe и одноранговой связи графических процессоров внутри виртуальных машин. Он поддерживает два подхода:

Сгладить иерархию: При таком подходе вы упрощаете топологию, чтобы упростить подготовку. Поставщики облачных услуг уже иногда используют это для конфиденциального развертывания ИИ, но за это приходится скрывать полезные одноранговые связи.
Репликация топологии хоста: Определите структуру блока управления памятью PCIe/ввода-вывода (IOMMU) хоста и отразите ее внутри гостя, сохраняя флаги служб трансляции адресов PCIe (ATS) и служб контроля доступа PCIe (ACS), что обеспечивает одноранговый DMA графического процессора и поведение GPUDirect.

Почему два? Итак, «Вы можете либо сгладить иерархию, потому что говорите, что иерархия вас не волнует… или вы можете сказать: «Мне нужна репликация хоста, потому что я создаю P2P-объекты». Таким образом, поддерживаются оба режима», — пояснил Кайзер.

NVIDIA также объяснила практические способы обхода группировки IOMMU и ограничений слотов PCIe. Например, вы можете выборочно сопоставить только необходимые устройства графического процессора с гостевыми корневыми портами, оставив несвязанные периферийные устройства на портах моста. Это позволяет избежать ненужного прохождения устройств и сложности.

Кайзер сказал, что NVIDIA сотрудничает с Red Hat, IBM и сообществом Kata с открытым исходным кодом для разработки VRA и инструментов, включая определение топологии хоста и руководства по производительности. Другие предстоящие публикации охватывают привязку ЦП, настройки ACS/ATS и настройку GPUDirect/RDMA для конфиденциальных виртуальных машин, а также подчеркивают необходимость избегать вложенной виртуализации, чтобы операторы могли запускать шаблоны VM как услугу на уровне L1 с согласованной аттестацией на всех уровнях. Короче говоря, «мы хотим все улучшить, чтобы люди могли воспроизвести это в качестве эталонной архитектуры», — сказал Кайзер.

Сотрудничество с открытым исходным кодом и усилия по развитию

Все это звучит великолепно, но Кайзер постарался отметить компромиссы. Объединение Ката с конфиденциальными вычислениями — не панацея. Прорывы ВМ остаются теоретическим риском; конфиденциальные виртуальные машины ограничивают возможности провайдера проверять память, но не устраняют все направления атак. Тем не менее, комбинированный подход существенно снижает возможности операторов облака или совладельцев доступа к конфиденциальным артефактам модели или данным обучения.

Тем не менее, после публикации и доступности подход NVIDIA к запуску чувствительных рабочих нагрузок искусственного интеллекта в масштабе почти наверняка приведет к созданию нового стека искусственного интеллекта, который сочетает в себе облегченную изоляцию виртуальных машин (Kata), аппаратное шифрование и аттестацию памяти (конфиденциальные вычисления) и абстракции сопоставления устройств графического процессора (CDI + оператор графического процессора) с тщательной обработкой топологии PCIe и ограничений IOMMU для сохранения безопасности и производительности.

ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Стивен Дж. Воан-Николс, он же sjvn, писал о технологиях и технологическом бизнесе с тех пор, как CP/M-80 была новейшей операционной системой для ПК, скорость 300 бит/с — высокоскоростное подключение к Интернету, WordStar — современный текстовый процессор, и он нам понравился. Узнайте больше от Стивена Дж. Воана-Николса.

Разработка сайтов в Гомеле

Добавить комментарий Отменить ответ

Похожие записи

Почему Diskless меняет правила игры в масштабном запуске Kafka

Что такое AI с открытым исходным кодом?

KAITO и KubeFleet: проекты, решающие масштабные задачи искусственного интеллекта

5 способов, которыми эфемерные среды преобразуют тестирование микросервиса

Что мы хотели бы знать о безопасности контейнеров

Почему 90% микросервисов по -прежнему поставляются как монолиты

3 Советы по написанию SQL для повышения производительности

Помимо базового масштабирования: передовые стратегии ресурсов Kubernetes

Строительство интеграции с помощью ИИ, которая выходит за рамки вибраций

Наблюдаемость застряла в прошлом. Ваши пользователи не

Может ли ИИ генерировать функциональную терраформ?

Как оптимизировать развертывания Edge AI с помощью автоматизации

Вам тоже может быть интересно:

Использование расстройства: исследователи метаматериалов достигают статической механической маскировки и камуфляжа

Классные вычисления — почему будущее электроники могло лежать на холоде

Умные микророботы учатся общаться и сотрудничать в воде

Использование фракталов природы для гибкой электроники: метод биомиметического изготовления использует скелеты листьев в качестве шаблонов

Твердовые устройства Урожает тепло, чтобы питание носителей без батареи и датчиков IoT

Растения, которые вы можете носить: гидрогел -материал вплетает семена в текстиль

Массив синаптических устройств объединяет зондирование, память и обработку для искусственного видения

Экологичный Advance приближает батареи «Дыхание» ближе к реальности

Новая технология превращает картины в голограммы, оживляя искусство в жизнь

Эта цифровая рука обеспечивает виртуальную реальность без помощи рук

Model Model Masters Новая местность на объекте НАСА по одному совка за раз

Масштабные полупроводники в масштабе пластин