Как вулкан решает проблемы обучения и вывода LLM

CNCF спонсировал этот пост.

Растущее внедрение моделей крупных языков (LLMS) усилило спрос на эффективные рабочие нагрузки и выводы. По мере того, как размер модели и сложность растут, распределенные тренировки и вывод стали важными. Тем не менее, это расширение вводит проблемы в сетевой коммуникации, распределении ресурсов и восстановлении разломов в крупномасштабных распределенных средах. Эти проблемы часто создают узкие места производительности, что препятствует масштабируемости.

Обработка узких мест с помощью топологического планирования

При обучении LLM модель параллелизм распределяет рабочую нагрузку по нескольким узлам, требуя частых обменов данных. Сетевая связь может стать узким местом, особенно в гетерогенных средах с конфигурациями Infiniband (IB), ROCE или NVSwitch. Эффективность связи зависит от топологии сети — меньше переключателей между узлами, как правило, приводит к более низкой задержке и более высокой пропускной способности.

Одним из подходов к смягчению этой проблемы является планирование топологии сети, которое оптимизирует размещение рабочей нагрузки, чтобы минимизировать связь между переключателями. Ключевым компонентом этой стратегии является HyperNode, абстракция для представления топологии сети с помощью пользовательских определений ресурсов (CRD).

В отличие от методов, основанных на метке, HyperNode обеспечивает иерархическую структуру, которая отражает фактические сетевые макеты, улучшая управление и оптимизацию. Узлы в одном и том же гиперноде общаются более эффективно, чем те, которые охватывают несколько слоев.

Источник: Huawei

Ограничения топологии также могут быть указаны для заданий через поле NetworkTopology с опциями для строгого (жесткого режима) или гибкого (мягкого режима). Этот гранулированный контроль помогает гарантировать, что рабочие нагрузки развернуты в оптимальных сетевых средах, уменьшая задержку и повышение пропускной способности.

Управление многослоковыми средами для масштабируемости

По мере расширения рабочих нагрузок ИИ, одноразовых кластеров Kubernetes может больше не хватать для крупномасштабного обучения и вывода. В то время как несколько кластеров могут учитывать это ограничение, управление им эффективно представляет проблемы.

Cloud Native Computing Foundation (CNCF) Инкубирующий проект Volcano расширяет возможности планирования в многословных средах, интегрируясь с системой управления Kubernetes Karmada, чтобы обеспечить перекрестное планирование для распределенных рабочих нагрузок. Такие функции, как планирование приоритетов в очереди, планирование приоритетов рабочих мест и многопоточное справедливое планирование, помогают оптимизировать распределение ресурсов и обеспечить справедливый доступ к арендаторам. Этот подход упрощает управление многоклеточным уровнем при поддержке масштабируемых рабочих нагрузок искусственного интеллекта.

Источник: Huawei

Улучшение стабильности с помощью мелкозернистого восстановления разлома

Восстановление неисправностей имеет решающее значение для распределенного обучения и вывода искусственного интеллекта. Традиционные методы часто перезапускают целые рабочие места при сбое одного стручка, что приводит к неэффективности ресурсов. С помощью контрольно-пропускной пункты и методов резюме из проверки полные перезагрузки часто ненужны.

Мелкозернистое восстановление работы по работе с работой позволяет перезапустить только неудачные стручки или связанные задачи, уменьшая ненужные нарушения. Конфигурации тайм -аута могут дополнительно минимизировать вмешательства; Если стручка восстанавливается в течение отведенного времени, перезапуск не запускается. Этот подход повышает стабильность и эффективность в распределенных рабочих нагрузках.

Будущие события в области управления распределенной рабочей нагрузкой

Постоянные достижения в области управления распределенной рабочей нагрузкой включают:

Планирование сродства сети на уровне задач: Поддержка сценариев распределенного вывода, таких как интеграция с LWS.
Hypernode Автопазора и обновления статуса: автоматизация для управления жизненным циклом Hypernode.
Динамическое распределение ресурсов (DRA): Улучшение управления гетерогенными ресурсами.
Динамическое разделение графического процессора: Поддержка графических процессоров (MIG) и мультипроцессов (MPS) для улучшения использования графических процессоров.

Чтобы узнать больше о вулкане, ознакомьтесь с нашим хранилищем GitHub, присоединяйтесь к разговору о вулкане Slack или посетите наши еженедельные встречи и просмотрите примечания к прошлым собраниям.

Чтобы узнать больше о Kubernetes и Облачной нативной экосистеме, присоединяйтесь к нам в Kubecon + CloudNativecon Europe в Лондоне 1-4 апреля.

Облачный фонд Cloud Computing Foundation (CNCF) проводит критические компоненты глобальной технологической инфраструктуры, включая Kubernetes, Prometheus и Angoy. CNCF является нейтральным домом для сотрудничества, объединяющий ведущих разработчиков отрасли, конечных пользователей и поставщиков. Узнайте больше последних из CNCF Trending Stories YouTube.com/ThenewStack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Xuzheng Chang-старший инженер программного обеспечения из Huawei Cloud и сопровождающий сообщества вулканов, специализируясь на партийных вычислениях и облачной графике ИИ. Xuzheng возглавил разработку ключевых функций в вулкане и активно способствует … Подробнее от Xuzheng Chang

Разработка сайтов в Гомеле

Добавить комментарий Отменить ответ

Похожие записи

Открытый исходный код переопределяет платформы данных

Четыре новых областях, где ИИ трансформирует разработку программного обеспечения

Локальный или облачный: выбор правильной среды разработки

Парадокс безопасности ИИ в облачной нативной разработке

NVIDIA наконец добавляет поддержку нативного Python к CUDA

Приквел: программные ошибки исчезли

Кому нужны нейронные сети? Генеративное мастерство моделей перехода состояния

Как поставить ограждения вокруг контейнерных LLM на Kubernetes

Новый OLTP: Postgres с отдельным вычислением и хранением

Frontend становится умнее: революция AI JavaScript

Учебное пособие: Настройте тестовый стенд нативного GPU с NVKIND Kubernetes

Почему он принадлежит к краю

Вам тоже может быть интересно:

Японский гигант телекоммуникационной связи NTT Com говорит, что хакеры получили подробности о почти 18 000 организаций

Изучите онлайн мир Apple TV

Урок несчастья Ларри Эллисона в сельском хозяйстве

Председатель Openai Брет Тейлор излагает дело быка для агентов искусственного интеллекта

FTC Трампа изучает цензуру на технических платформах

Pokémon Go Maker Niantic, как сообщается, продает свое игровое подразделение

Google делает ставки на геотермальные центры питания на Тайване

Брайан Армстронг говорит, что Coinbase потратил 50 миллионов долларов в иске SEC — и победил его

OpenAI говорит, что он выпустит O3, задерживает GPT-5

Обнимающиеся лица исследователей стремятся создать «открытую» версию глубокого исследования Openai

Два пространственных стартапа объединились для создания следующего поколения телескопов

Midjourney выпускает свою первую новую модель ИИ изображения почти за год