В выпуске «Агентов нового стека» на этой неделе я поговорил с Сурешом Васудеваном, генеральным директором Clockwork.
Я всегда считал Clockwork интересной компанией, отчасти потому, что команда попыталась решить одну проблему — синхронизацию часов на серверах — но затем поняла, что может использовать данные, полученные в результате синхронизации часов, для обнаружения сетевых проблем в центрах обработки данных. В конце концов, то, что вы делаете, когда синхронизируете эти часы, по сути, является измерением задержки. На основе этого Clockwork создала сложный инструмент и функции мониторинга сети, не зависящие от аппаратного обеспечения, которые помогают операторам автоматически устранять эти проблемы или обходить их.
Лучшая синхронизация часов для лучшего обучения LLM
Неудивительно, что сегодня это также включает в себя обнаружение проблем с большими парками графических процессоров, используемых для обучения больших языковых моделей (LLM), а некоторые из крупных пользователей компании включают нео-облака, такие как Nebius и Nscale, а также такие компании, как Uber и Wells Fargo.
«Сегодня Clockwork создает программный уровень, который фокусируется на оптимизации связи между графическими процессорами в больших кластерах, которые затем используются для рабочих нагрузок ИИ», — сказал мне Васудеван. «Как вы хорошо знаете, рабочие нагрузки ИИ являются одними из самых распределенных и самых требовательных распределенных приложений в истории. Во многом эффективность рабочей нагрузки зависит от того, насколько эффективна связь между графическими процессорами. То, на чем фокусируется Clockwork, — это набор строительных блоков программного обеспечения, которые позволяют вам получить три вещи, которые в конечном итоге приводят к более высокой эффективности ИИ».
К ним относится глубокая видимость того, что происходит с парком графических процессоров, от сети до уровня приложений. Но особенность, ради которой большинство клиентов, скорее всего, обращаются в компанию, — это FleetIQ, с его способностью обеспечивать отказоустойчивость, например, автоматически перенаправляя трафик вокруг сломанных сетевых коммутаторов.
Это особенно важно для больших рабочих нагрузок по обучению LLM, поскольку их сложно возобновить, если что-то пойдет не так. Типичные кластеры графических процессоров имеют время безотказной работы от 80 до 90 с.
«Сравните это с доступностью облака, которая часто измеряется тремя-четырьмя девятками — это совершенно другой мир. Хуже всего то, что когда связь исчезает, вам приходится останавливать рабочую нагрузку, возвращаться к контрольной точке, которая может быть многочасовой давности, и начинать обучение заново. Таким образом, сотни и тысячи графических процессоров тратят впустую все уже выполненные вычисления», — объяснил Васудеван.
От часов к графическим процессорам
Это было совсем не то, о чем изначально думали основатели Clockwork, когда основывали компанию.
Компания, созданная в Стэнфордском университете в 2018 году (в то время называвшаяся TickTock, а затем переименованная по понятным причинам), была основана Баладжи Прабхакаром, Дипаком Меругу и Илонгом Генгом на основе исследования синхронизации часов, которое Прабхакар и Генг провели. Васудеван присоединился к компании в начале этого года и стал генеральным директором компании после того, как ранее был генеральным директором Sysdig, Nimble Storage и Omneon.
«Первые четыре года компания действительно представляла собой небольшую команду, действовавшую почти как потомок Стэнфорда, и в ней было пять или шесть человек», — объяснил Васудеван. «Как основная технология, так и варианты использования, которые мы преследовали, были связаны с синхронизацией часов. Например, некоторые финансовые компании из списка Fortune 100 использовали нас для синхронизации часов для создания финансовых меток и рыночных данных».
После этого к команде пришло прозрение: она может использовать свою способность измерять время, необходимое для прохождения пакетов от A до B, в качестве основы сетевой телеметрической системы.
«Попутно мы смогли дополнить нашу глобальную синхронизацию часов еще одной технологией строительных блоков, которую мы называем динамическим контролем трафика. Поскольку теперь мы точно знаем, что происходит в вашей сети между графическими процессорами, мы также можем перенаправлять потоки, перехватывая их на программном уровне», — пояснил он. «Мы подключаемся к коммуникационной библиотеке, которую Nvidia назвала NCCL, мы подключаемся к коммуникационным библиотекам TCP, мы подключаемся к коммуникационным библиотекам RDMA. Когда мы видим перегрузку или конкурирующие потоки, мы можем перенаправить. Эволюция заключалась в следующем: с помощью часов я могу измерять вещи. Как только я измеряю вещи, я могу ими управлять. И как тогда мне взять на себя управление не только на сетевом уровне, но и на всем пути до учебных рабочих нагрузок PyTorch и управлять всем приложением как для отказоустойчивости, так и для производительности?»
Для получения более подробной информации о том, как Clockwork это делает, а также мыслей Васудевана о том, находимся ли мы в пузыре искусственного интеллекта — и если это имеет значение — посмотрите полное видео на YouTube или подпишитесь на наш подкаст.
ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Прежде чем присоединиться к The New Stack в качестве старшего редактора по искусственному интеллекту, Фредерик был корпоративным редактором в TechCrunch, где освещал все, от появления облака и первых дней Kubernetes до появления квантовых вычислений…. Подробнее от Фредерика Лардинуа