После DeepSeek Nvidia сосредоточен на выводе в GTC

Ранее в этом году новости о том, что Deepseek создал высококонкурентную модель рассуждений с минимальными затратами на обучение, направила акции NVIDIA в носитель, поскольку аналитики начали задаваться вопросом, подходил ли возраст крупномасштабных инвестиций в области аппаратных средств искусственного интеллекта. Возможно, не удивительно, что большая часть основного доклада этого года в GTC, ежегодной конференции NVIDIA, казалась реакцией на это. Дженсен Хуанг, генеральный директор и соучредитель Nvidia, объявил о обычном множестве новых программных и аппаратных средств, включая следующее поколение своих флагманских ускорителей и интересный набор систем искусственного интеллекта для разработчиков настольных масштаба. Но в основе всего этого было одно сообщение: приложения следующего поколения будут на основе ИИ, и для того, чтобы сделать эту работу, особенно в эпоху моделей рассуждений и агентов, потребует огромного количества вычислительной власти, которую Nvidia более рада предоставит.

Действительно, Nvidia говорит, что ожидает, что спрос на вычислитель ИИ увеличится в 100 раз по сравнению с предыдущими оценками. Интересно, что когда Хуанг хотел продемонстрировать, какую вычислительную силу потребуются новые модели рассуждений, он решил сравнить более традиционную модель Llama Meta с DeepSeek R1. Это, безусловно, не случайно. DeepSeek, как оказалось, использовал в 150 раз больше вычислительных и генерировал 20 раз больше жетонов.

«Вывод в масштабе — это экстремальные вычисления», — сказал Хуанг. Всегда существует компромисс между задержкой и вычислительными затратами, которые должны быть сделаны здесь. В любом случае, утверждал Хуанг, количество генерируемых токенов будет только увеличиваться. Конечно, обучение не было полностью оставлено из основного доклада, но было трудно взглянуть на большую часть презентации и не думать, что, по крайней мере, первая половина или около того была реакцией на DeepSeek.

Хуан также утверждал, что происходит общий сдвиг платформы, который происходит от программного обеспечения с ручной кодировкой, созданного на компьютерном хранилище общего назначения в программное обеспечение для машинного обучения, построенное на ускорителях и графических процессорах. Это также означает — и это хорошо для Nvidia — что будущее разработки программного обеспечения означает капитальные инвестиции. Раньше, отметил Хуан, вы написали программное обеспечение и запустили его. Теперь, «компьютер стал генератором жетонов», — сказал он, и, по его мнению, большинство предприятий скоро построят то, что ему нравится, чтобы называть «фабрики ИИ», которые будут параллельно их физическим растениям.

Для разработчиков Nvidia объявила о DGX Spark и станции DGX. Искра может работать параллельно с существующим рабочим столом или ноутбуком и выглядит несколько сродни студии Mac. Тем временем станция DGX по сути представляет собой полномасштабную рабочую станцию ​​для настольных компьютеров для ученых с данными с 500 терафлопами вычислительной мощности.

Чтобы ускорить вывод и снизить стоимость в центре обработки данных, Nvidia объявила о нескольких новых акселераторах, в том числе семейство Blackwell Ultra и предстоящую Vera Rubin, Rubin Ultra и поколения своих чипов Feynman, которые будут иметь значительное увеличение вычисления в производительности и охране памяти по сравнению с их предшественниками.

NVIDIA явно выступает в некоторой степени, похожий на Intel Tick-Tock здесь с новым поколением чипа каждый год, а затем оптимизированная версия «Ultra» вскоре после этого. Чтобы узнать это, Хуан пошутил, что он был «главным эсминцем доходов» в Нвидии, потому что никто больше не должен покупать нынешнее поколение чипсов бункер.

Структура вывода динамо NVIDIA.

Еще один новый проект, который компания объявила сегодня, — Dynamo, «программное обеспечение для вывода с открытым исходным кодом для ускорения и масштабирования моделей рассуждений искусственного интеллекта на фабриках искусственного интеллекта», как описывает Nvidia. Идея здесь состоит в том, чтобы предоставить оптимизированную структуру для запуска моделей рассуждений в центре обработки данных.

«Промышленности по всему миру обучают модели искусственного интеллекта, чтобы мыслить и учиться по -разному, делая их более изощренными с течением времени», — сказал Хуанг. «Чтобы позволить будущему пользовательским рассуждениям AI, Nvidia Dynamo помогает обслуживать эти модели в масштабе, приводя к экономии средств и эффективности на всех заводах искусственного интеллекта».

И, как будто, чтобы еще больше подчеркнуть его общее внимание к выводу, Nvidia также запускает собственное семейство моделей рассуждений, Llama Nemotron, которая оптимизирована для вывода (и может похвастаться увеличением точности на 20% по сравнению с моделью ламы, на которой она основана).

В целом, реакция на основной доклад GTC в этом году казалась немного более приглушенной, чем на прошлогоднее мероприятие. Частично это может быть связано с тем, что было не так много объявлений, как в предыдущие годы, или что они были технически впечатляющими, но также и немного эзотерическими (например, его сетевое оборудование на основе фотоники), но также и потому, что шоу казалось более реакционным, чем провидцем на этот раз.

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. До присоединения к новому стеку Фредерик был редактором Enterprise в TechCrunch, где он освещал все, от роста облака и самых ранних дней Kubernetes до появления квантовых вычислений. До этого он работал в ReadWriteWeb … Подробнее от Frederic Lardinois

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *