Как добиться производительности графического процессора «голого железа» в конфиденциальных виртуальных машинах

ПАРИЖ — На OpenInfra Summit Europe 2025 компания NVIDIA хотела ясно дать понять разработчикам, операторам и пользователям ИИ: если вы хотите запускать чувствительные рабочие нагрузки ИИ на графических процессорах где угодно — локально, в публичных облаках или на периферии — вам нужна как изолированная программная среда на уровне виртуальных машин (VM), так и аппаратно поддерживаемая конфиденциальность памяти. Это означает, что, по словам Звонко Кайзера, главного системного инженера NVIDIA, вам следует объединить Kata Containers (облегченные виртуальные машины для контейнеров) с конфиденциальными вычислениями, чтобы сохранить производительность графического процессора без ОС, не позволяя оператору облака проверять вашу модель и данные.

Kata, для тех из вас, кто не знает, — это проект с открытым исходным кодом, который сочетает в себе легкие виртуальные машины и среду выполнения контейнеров. Он использует технологию аппаратной виртуализации для запуска отдельной виртуальной машины для каждого контейнера, обеспечивая надежную изоляцию между контейнерами. Каждый контейнер, в свою очередь, использует минимальное, урезанное ядро ​​Linux. Kata Containers стремится предложить преимущества производительности контейнеров, а также безопасность и изоляцию рабочих нагрузок виртуальных машин.

Понимание контейнеров Kata и облегченных виртуальных машин

«Kata — это микро-VM… она просто вписывается в облачное пространство», — сказал Кайзер аудитории. Он утверждал, что Kata устраняет недостаток среды выполнения изолированного контейнера, сохраняя при этом интеграцию с рабочими процессами Kubernetes.

Конфиденциальные вычисления привносят в игру данные в памяти и шифрование приложений. Мы уже давно обеспечиваем безопасность посредством шифрования, когда данные хранятся или передаются по сети. Теперь оно у нас тоже есть в памяти.

Цель их объединения, объяснил Кайзер, — это переворот традиционной модели угроз. Классическое использование Kata предполагает, что рабочая нагрузка не является доверенной, поэтому оно защищает хост от контейнера. Конфиденциальные вычисления, использующие функции безопасности ЦП, такие как SEV/TDX, утверждают, что: «Мы не доверяем инфраструктуре». Таким образом, зашифровав виртуальную машину, даже ваш облачный провайдер не сможет сделать снимок или проверить гостевую память.

Роль конфиденциальных вычислений и аттестации

Чтобы убедиться, что это действительно работает, он подчеркнул важность аттестации как механизма, объединяющего стек. Только после криптографического подтверждения того, что виртуальная машина и ее состояние загрузки/гостя соответствуют ожидаемой конфигурации, следует раскрывать секреты или ключи для рабочей нагрузки. Это обеспечивает полнофункциональную модель доверия на уровне управления, рабочих узлах и модулях. «Процесс доказательства того, что ваше состояние… действительно является тем состоянием, которое вы измеряете», является основой конфиденциального развертывания, — сказал Кайзер.

ИИ и NVIDIA объединяются, используя их, чтобы вы могли использовать графические процессоры как «голое железо» внутри конфиденциальных виртуальных машин. Кайзер объяснил, как NVIDIA работает над тем, чтобы рабочие нагрузки графических процессоров «переносились» в Kata/конфиденциальные виртуальные машины без потери производительности или функциональности.

Достижение производительности графического процессора без операционной системы для рабочих нагрузок ИИ

Для этого NVIDIA использует строительные блоки Kubernetes, оператор графического процессора и интерфейс контейнерных устройств (CDI), чтобы драйверы, библиотеки и сопоставления устройств представлялись контейнерам точно так же, как если бы они были на «голом железе». «Мы просто взяли этот шаблон, который у нас уже есть на голом железе, и просто вставили его в конец, чтобы контейнер, работающий в Ката, чувствовал и вел себя так же, как и на голом железе».

Эти усилия включают поддержку сквозной передачи PCIe, виртуализации ввода-вывода с одним корнем (SR-IOV), удаленного прямого доступа к памяти GPUDirect (RDMA) и конфигураций среды выполнения для каждого модуля, поэтому один модуль может использовать сквозную передачу PF, а другой — SR-IOV. Важно отметить, что использование Kata гостевого ядра отделяет пользовательское пространство от изменений ядра хоста. Это снижает риск того, что обновление хоста приведет к поломке драйверов графического процессора внутри виртуальной машины рабочей нагрузки.

Решение проблем топологии PCIe с помощью NVIDIA VRA

Это может показаться сложным, но, по словам Кайзера, самая сложная часть — это топология. Ответ NVIDIA — эталонная архитектура виртуализации (VRA). Вскоре NVIDIA опубликует более подробно этот подход к решению сложной проблемы топологии PCIe и одноранговой связи графических процессоров внутри виртуальных машин. Он поддерживает два подхода:

  • Сгладить иерархию: При таком подходе вы упрощаете топологию, чтобы упростить подготовку. Поставщики облачных услуг уже иногда используют это для конфиденциального развертывания ИИ, но за это приходится скрывать полезные одноранговые связи.
  • Репликация топологии хоста: Определите структуру блока управления памятью PCIe/ввода-вывода (IOMMU) хоста и отразите ее внутри гостя, сохраняя флаги служб трансляции адресов PCIe (ATS) и служб контроля доступа PCIe (ACS), что обеспечивает одноранговый DMA графического процессора и поведение GPUDirect.

Почему два? Итак, «Вы можете либо сгладить иерархию, потому что говорите, что иерархия вас не волнует… или вы можете сказать: «Мне нужна репликация хоста, потому что я создаю P2P-объекты». Таким образом, поддерживаются оба режима», — пояснил Кайзер.

NVIDIA также объяснила практические способы обхода группировки IOMMU и ограничений слотов PCIe. Например, вы можете выборочно сопоставить только необходимые устройства графического процессора с гостевыми корневыми портами, оставив несвязанные периферийные устройства на портах моста. Это позволяет избежать ненужного прохождения устройств и сложности.

Кайзер сказал, что NVIDIA сотрудничает с Red Hat, IBM и сообществом Kata с открытым исходным кодом для разработки VRA и инструментов, включая определение топологии хоста и руководства по производительности. Другие предстоящие публикации охватывают привязку ЦП, настройки ACS/ATS и настройку GPUDirect/RDMA для конфиденциальных виртуальных машин, а также подчеркивают необходимость избегать вложенной виртуализации, чтобы операторы могли запускать шаблоны VM как услугу на уровне L1 с согласованной аттестацией на всех уровнях. Короче говоря, «мы хотим все улучшить, чтобы люди могли воспроизвести это в качестве эталонной архитектуры», — сказал Кайзер.

Сотрудничество с открытым исходным кодом и усилия по развитию

Все это звучит великолепно, но Кайзер постарался отметить компромиссы. Объединение Ката с конфиденциальными вычислениями — не панацея. Прорывы ВМ остаются теоретическим риском; конфиденциальные виртуальные машины ограничивают возможности провайдера проверять память, но не устраняют все направления атак. Тем не менее, комбинированный подход существенно снижает возможности операторов облака или совладельцев доступа к конфиденциальным артефактам модели или данным обучения.

Тем не менее, после публикации и доступности подход NVIDIA к запуску чувствительных рабочих нагрузок искусственного интеллекта в масштабе почти наверняка приведет к созданию нового стека искусственного интеллекта, который сочетает в себе облегченную изоляцию виртуальных машин (Kata), аппаратное шифрование и аттестацию памяти (конфиденциальные вычисления) и абстракции сопоставления устройств графического процессора (CDI + оператор графического процессора) с тщательной обработкой топологии PCIe и ограничений IOMMU для сохранения безопасности и производительности.

ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Стивен Дж. Воан-Николс, он же sjvn, писал о технологиях и технологическом бизнесе с тех пор, как CP/M-80 была новейшей операционной системой для ПК, скорость 300 бит/с — высокоскоростное подключение к Интернету, WordStar — современный текстовый процессор, и он нам понравился. Узнайте больше от Стивена Дж. Воана-Николса.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *