PM Google AI Infrastructure PM о новых TPU, жидком охлаждении и многое другое

На своей конференции Cloud Next 25 в начале этого года Google запустил Ironwood, его последнее ускоритель AIS-Accelerator AI-Accelerator, который легко превосходит любые из своих чипов предыдущего поколения. Чтобы поговорить о Ironwood, а также о том, как Google думает об использовании графических процессоров по сравнению с TPU, созданию оборудования для моделей, которые меняются на постоянно растущей скорости, подготовленные центры обработки данных к чипам следующего поколения и многое другое, я сел с Челси CZOP, старшим менеджером продукта для инфраструктуры AI Google.

По словам Google, последнее поколение стручков Ironwood с 9 216 чипсами на капсула обеспечивает общую вычислительную мощность 42,5 Exaflops. Он также предлагает 2 -кратное улучшение производительности на ватт по сравнению с последним поколением TPU.

Как отметил CZOP, строительство этих чипсов всегда является компромиссом.

«Чтобы иметь возможность проектировать эти системы, это интересно, потому что вы возвращаетесь к тем, которые у вас есть: это мощность, это тепло — способность охладить его [because the] Больше власти, которую вы приносите, тем горячее он становится — и затем способна взаимодействовать все эти чипы вместе, — объяснила она. — Так что это идет постепенно, а затем вы смотрите на это, и вы оглядываетесь через поколения, и вы понимаете, как далеко вы смогли зайти и как сильно этот прыжок был с самого начала ».

Что касается тепловых улучшений, Google начал использовать жидкое охлаждение довольно несколько лет назад, в значительной степени обусловленным необходимостью сохранять свои ранние TPU. Czop сказал, что TPU Ironwood используют в Google четвертое поколение жидкого охлаждения систем жидкого охлаждения Google, хотя она также отметила, что не каждое поколение ТПУ использовало жидкое охлаждение.

«Просто наблюдая за развитием того, как Google смог развивать жидкое охлаждение каждого поколения, это отличается, когда мы с вами говорим об этом, но затем вы попадаете в центр обработки данных и видите небольшие изменения», — сказала она. «Мы запускаем жидкие охлаждающие трубы снаружи и передней частью систем, когда вы идете по ряду. И одна из причин, по которой мы делаем это, заключается в том, что вы можете увидеть, есть ли утечка, и от одного поколения к другому, есть, как уход, который указал вверх, и тот, который указал вниз. Я уверен, что были извлечены некоторые уроки с этим».

Поскольку эти TPU теперь являются настолько мощными, один вопрос, который Czop получает много от клиентов, заключается в том, использовать ли TPU или (в основном nvidia) графические процессоры для своих рабочих нагрузок. Она отметила, что это всегда зависит от рабочей нагрузки клиента, вариантов использования и того, что их команды уже используют. Время от времени, отмечала она, командам может понадобиться фреймворк Nvidia, чтобы ускорить их работу, которая, например, не доступна для TPU. Но для многих предприятий это также не/или обсуждение.

«У нас были клиенты, которые переходили от процессоров непосредственно в TPU. Я разговаривал с Moloco на сеансе ранее, и у них было 10-кратное улучшение, просто переносив свои тренировочные приложения из процессоров в TPU. У них очень тяжелые модели, поэтому они даже не оптимизировали, как они могли бы использовать скудные сердечники, которые в том же духе, но и все же, как и все же, как и все же, как и все равно, что все же, как и все равно, что все же, как и все равно, что все же, как и все равно, что все же, как и все равно, что все же, как и все же, как и все равно, что все же, как и все же, как и все же, как и все равно, что все же, как и все же, как и все же, как и все же, как и в том же духе.

Тем не менее, в то время как аппаратное обеспечение продолжает улучшать годовую каденцию, модели — и модели архитектуры — продолжают меняться значительно быстрее. Czop отметил, что отношения команд с DeepMind помогают ему смотреть в будущее.

«Это довольно забавно для меня, когда мы пишем наши блоги объявления, потому что нам нравится, мы разрабатываем это оборудование для следующего поколения, и мы даже не обязательно уверены, какими будут эти новые модельные архитектуры», — сказала она. «И особенно сейчас, мы сосредоточены на том, чтобы вычислить время размышлений, привлекая к выводу и мышление, когда вы делаете вывод. И это сейчас на кровотечении. Но это может измениться на следующей неделе».

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Прежде чем присоединиться к новому стеку в качестве старшего редактора для ИИ, Фредерик был редактором предприятия в TechCrunch, где он освещал все, от роста облака и самых ранних дней Kubernetes до появления квантовых вычислений …. Подробнее от Frederic Lardinois

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *