Как вулкан решает проблемы обучения и вывода LLM

CNCF спонсировал этот пост.

Растущее внедрение моделей крупных языков (LLMS) усилило спрос на эффективные рабочие нагрузки и выводы. По мере того, как размер модели и сложность растут, распределенные тренировки и вывод стали важными. Тем не менее, это расширение вводит проблемы в сетевой коммуникации, распределении ресурсов и восстановлении разломов в крупномасштабных распределенных средах. Эти проблемы часто создают узкие места производительности, что препятствует масштабируемости.

Обработка узких мест с помощью топологического планирования

При обучении LLM модель параллелизм распределяет рабочую нагрузку по нескольким узлам, требуя частых обменов данных. Сетевая связь может стать узким местом, особенно в гетерогенных средах с конфигурациями Infiniband (IB), ROCE или NVSwitch. Эффективность связи зависит от топологии сети — меньше переключателей между узлами, как правило, приводит к более низкой задержке и более высокой пропускной способности.

Одним из подходов к смягчению этой проблемы является планирование топологии сети, которое оптимизирует размещение рабочей нагрузки, чтобы минимизировать связь между переключателями. Ключевым компонентом этой стратегии является HyperNode, абстракция для представления топологии сети с помощью пользовательских определений ресурсов (CRD).

В отличие от методов, основанных на метке, HyperNode обеспечивает иерархическую структуру, которая отражает фактические сетевые макеты, улучшая управление и оптимизацию. Узлы в одном и том же гиперноде общаются более эффективно, чем те, которые охватывают несколько слоев.

Источник: Huawei

Ограничения топологии также могут быть указаны для заданий через поле NetworkTopology с опциями для строгого (жесткого режима) или гибкого (мягкого режима). Этот гранулированный контроль помогает гарантировать, что рабочие нагрузки развернуты в оптимальных сетевых средах, уменьшая задержку и повышение пропускной способности.

Управление многослоковыми средами для масштабируемости

По мере расширения рабочих нагрузок ИИ, одноразовых кластеров Kubernetes может больше не хватать для крупномасштабного обучения и вывода. В то время как несколько кластеров могут учитывать это ограничение, управление им эффективно представляет проблемы.

Cloud Native Computing Foundation (CNCF) Инкубирующий проект Volcano расширяет возможности планирования в многословных средах, интегрируясь с системой управления Kubernetes Karmada, чтобы обеспечить перекрестное планирование для распределенных рабочих нагрузок. Такие функции, как планирование приоритетов в очереди, планирование приоритетов рабочих мест и многопоточное справедливое планирование, помогают оптимизировать распределение ресурсов и обеспечить справедливый доступ к арендаторам. Этот подход упрощает управление многоклеточным уровнем при поддержке масштабируемых рабочих нагрузок искусственного интеллекта.

Источник: Huawei

Улучшение стабильности с помощью мелкозернистого восстановления разлома

Восстановление неисправностей имеет решающее значение для распределенного обучения и вывода искусственного интеллекта. Традиционные методы часто перезапускают целые рабочие места при сбое одного стручка, что приводит к неэффективности ресурсов. С помощью контрольно-пропускной пункты и методов резюме из проверки полные перезагрузки часто ненужны.

Мелкозернистое восстановление работы по работе с работой позволяет перезапустить только неудачные стручки или связанные задачи, уменьшая ненужные нарушения. Конфигурации тайм -аута могут дополнительно минимизировать вмешательства; Если стручка восстанавливается в течение отведенного времени, перезапуск не запускается. Этот подход повышает стабильность и эффективность в распределенных рабочих нагрузках.

Будущие события в области управления распределенной рабочей нагрузкой

Постоянные достижения в области управления распределенной рабочей нагрузкой включают:

  • Планирование сродства сети на уровне задач: Поддержка сценариев распределенного вывода, таких как интеграция с LWS.
  • Hypernode Автопазора и обновления статуса: автоматизация для управления жизненным циклом Hypernode.
  • Динамическое распределение ресурсов (DRA): Улучшение управления гетерогенными ресурсами.
  • Динамическое разделение графического процессора: Поддержка графических процессоров (MIG) и мультипроцессов (MPS) для улучшения использования графических процессоров.

Чтобы узнать больше о вулкане, ознакомьтесь с нашим хранилищем GitHub, присоединяйтесь к разговору о вулкане Slack или посетите наши еженедельные встречи и просмотрите примечания к прошлым собраниям.

Чтобы узнать больше о Kubernetes и Облачной нативной экосистеме, присоединяйтесь к нам в Kubecon + CloudNativecon Europe в Лондоне 1-4 апреля.

Облачный фонд Cloud Computing Foundation (CNCF) проводит критические компоненты глобальной технологической инфраструктуры, включая Kubernetes, Prometheus и Angoy. CNCF является нейтральным домом для сотрудничества, объединяющий ведущих разработчиков отрасли, конечных пользователей и поставщиков. Узнайте больше последних из CNCF Trending Stories YouTube.com/ThenewStack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Xuzheng Chang-старший инженер программного обеспечения из Huawei Cloud и сопровождающий сообщества вулканов, специализируясь на партийных вычислениях и облачной графике ИИ. Xuzheng возглавил разработку ключевых функций в вулкане и активно способствует … Подробнее от Xuzheng Chang

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *