Графические процессоры неуклонно становятся быстрее, но, поскольку предприятия, неокулировали и укоренившиеся гиперсмешки, стремятся получить от них большую эффективность, узкое место часто является сетью — до такой степени, что Nvidia, например, теперь инвестирует в силиконовую фотонику, чтобы улучшить скорость и устойчивость сети. Одним из ключей к улучшению существующих сетей является улучшение видимости в состоянии этих кластеров GPU и сети, которые соединяют различные системы.
Заводной механизм начинался как инструмент и сервис для синхронизации часов через вычислительные кластеры. Но, как выясняется, как только вы узнаете, когда посылка была отправлена и получена с точностью субмикросекунды, вы также создали основу для решения для мониторинга, которое может отслеживать, где именно есть узкие места в большом кластере, независимо от того, смотрите ли вы процессоры или графические процессоры. После того, как у вас есть эта информация и добавить дополнительные функции мониторинга, вы также можете начать формировать ее между машинами.
Между тем, рабочие нагрузки искусственного интеллекта — и особенно тренировочные рабочие нагрузки — вызывает высокий спрос на эти кластеры, причем сеть часто становятся как узким местом, так и источником ошибок для этих сильно распределенных рабочих нагрузок, что затем может потребовать перезагрузки процесса обучения из недавнего контрольного пункта.
Изображение кредитоспособность: часы.
Это, по словам вице -президента по часовым материалам по продуктам и решениям, Дэн Чжэн, часто может привести к потерянным часам работы и добавленным дни к тренировкам.
«Сегодня это происходит, так это то, что у вас может быть действительно хорошая информация о том, чтобы графические процессоры, для сетевого взаимодействия, для хранения, но когда работа работает медленной-это может быть тренировочная работа или может быть распределенной задачей вывода-вы пытаетесь определить, где возникают проблемы, и часто, для этого требуется много усилий. Мы в состоянии обеспечить видимость перекрестного сдержания, чтобы вы могли выявить, что вы можете определить.
Fleetiq, которую компания запускает сегодня, дает операционным командам эту видимость в сочетании с государственной непрерывностью (так что рабочие места могут продолжаться без сбоев, даже перед лицом сбоев инфраструктуры) и автоматической оптимизации производительности, чтобы помочь избежать заторов сетевых, споров и других узких звеньев.
Изображение кредитоспособность: часы.
«Если вы посмотрите на доступность или время безотказной работы кластеров GPU, вы действительно смотрите, возможно, в лучшем случае, в 90 -х годах», — объяснил Чжэнь. Отдельные графические процессоры могут потерпеть неудачу, как сетевое оборудование или стручки для хранения. «Поскольку мы сидим на краю и имеем уникальную точку зрения, мы можем делать интересные вещи в программном уровне. Вместе мы называем эти программные ткани, потому что мы считаем, что узкое место перенесено от необработанного графического процессора на общение».
Команда Clockwork, которая недавно включила бывшего генерального директора Sysdig и Dimble Storage Suresh Vasudevan в качестве генерального директора компании, утверждает, что ее система обеспечивает полную видимость во всем стеке, и в то же время в основном агностик для оборудования, хотя команде приходится углубляться в то, как различные аппаратные компоненты взаимодействуют с различными сетевыми API, транспортными протоколами и библиотеками связи, например.
Изображение кредитоспособность: часы.
Среди прочего, служба может работать с графическими процессорами и ускорителями из NVIDIA, AMD и других, а также поддерживает сетевые библиотеки, такие как NCCL NVIDIA и библиотека RCCL с открытым исходным кодом, а также Infiniband и Ethernet/Roce. (Сеть -инженеры любят аббревиатуры даже больше, чем большинство технических дисциплин.)
Заглядывая в будущее, Clockwork также планирует пойти немного дальше вверх по стеку и привлечь мониторинг на уровне приложений в свой сервис. В настоящее время такой инструмент, как Fleetiq, мало что знает о фактических приложениях, которые отправляют данные по сети.
Nebius, который только что подписал крупную инфраструктуру ИИ с Microsoft, Nscale, Uber и несколькими другими крупными и частными облачными операторами, уже использует Fleetiq.
“We are in the process of rolling out Clockwork across Uber infrastructure, and look forward to experiencing their full capabilities at Uber’s scale. Clockwork’s software-driven fabric provides foundational observability for the hybrid, multicloud environment, helping us deliver what matters most: improved infrastructure utilization, enhanced resiliency, and ultimately, a better experience for the millions of people who rely on our platform every day,” said Albert Гринберг, главный архитектор в Uber.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Прежде чем присоединиться к новому стеку в качестве старшего редактора для ИИ, Фредерик был редактором предприятия в TechCrunch, где он освещал все, от роста облака и самых ранних дней Kubernetes до появления квантовых вычислений …. Подробнее от Frederic Lardinois