Проект обнимающего лица раскрывает секреты DeepSeek-R1

По словам Джеффа Бодье, который возглавляет продукт и рост в обширном лице, релиз DeepSeek-R1 был огромным пробуждением для мира ИИ.

«Обоснованный звонок состоял в том, что для получения наилучшего ИИ вам не нужно полагаться на закрытые модели от Openai, Anpropic, Google и т. Д.»,-сказал Будье. «Вы можете получить доступ к открытой модели здесь из DeepSeek с аналогичными возможностями, поступающей из исследовательской лаборатории, которая ранее не была очень известна».

Объятие Face — это компания, которая служит центром репозитория и сообществом для моделей с открытым исходным кодом (LLMS). Он очень быстро увидел влияние DeepSeek-R1, которое размещено на платформе.

«Что было интересно, так это то, что это было не просто большое объявление для широкой публики, это также создало шквал активности в сообществе ИИ, и мы увидели это непосредственно на обнимании лица», — сказал Будье в новом стеке. «Релиз R1 сегодня — это более 10 миллионов загрузок на обнимающееся лицо, и это только последние 30 дней».

Как DeepSeek изменил ИИ

DeepSeek создает очень эффективные модели, которые работают на менее мощном оборудовании. Это необычно в ИИ, настолько, что когда его модель R1 была выпущена в январе, она вызвала запасы для NVIDIA, которое производит графические единицы обработки (графические процессоры), на которые опираются другие системы ИИ.

DeepSeek также использовал несколько нейронных сетей вместо того, чтобы полагаться на одну модель «генералиста». Кроме того, было недорого тренироваться всего в 5,5 миллионов долларов по сравнению с другими моделями ИИ поколений: «Благодаря архитектурным изменениям, таким как многоцветный прогноз (MTP), мульти-головное скрытое внимание (MLA) и многое (серьезно, много) оптимизации оборудования»,-написали исследователи обнимающего лица в блоге.

Организация DeepSeek по обнимающему лицу также является самой последующей организацией на сайте, с более чем 45 000 подписчиков. Это больше, чем Google, Microsoft или другие крупные игроки AI. В настоящее время в центре доступны тысячи производных DeepSeek Model, добавленных.

Это также изменило игру для тех организаций, которые хотят использовать ИИ. Теперь организации могут скачать DeepSeek с открытым исходным кодом, выпущенную по лицензии MIT, и размещать его в помещениях.

«Если вы предприятие, вам больше не нужно отправлять данные вашего клиента в API, например, openai или другие», — сказал Будье. «На самом деле вы можете размещать все. И это также лицензировано MIT, так что вы можете использовать его для любой коммерческой цели. Это действительно, действительно мощно».

Проект Open-R1

DeepSeek не просто выпустил свои модели с открытым исходным кодом R1 и R1-Zero-китайская компания выпустила технический отчет, который был «очень щедрым с точки зрения знаний, которые они поделились, и как они смогли создать модели R1 и R1-Zero с использованием методов обучения подкрепления и некоторых из этих трюков»,-объяснил Будье.

Методы, описанные в техническом отчете, были реализованы в библиотеках обнимающих лица, поэтому они могут использоваться исследовательскими лабораториями по всему миру, добавил он. Это включало в себя такие методы, как генеративные рассуждения и оптимизация планирования (GRPO), которые позволяют ИИ продумать выполнение более сложных задач, а затем со временем улучшаться.

Но в исследованиях Deepseek, в исследованиях Deepseek, были недостающие части.

«Технический отчет не объяснял и не описывал данные обучения, которые использовались для обучения и выравнивания модели R1», — сказал он. «Он не описывал процесс дистилляции».

В частности, отметила исследовательская группа об объятиях, в отчете оставил вопросы о:

  • Сбор данных, например, как курировали наборы данных, специфичные для обоснования.
  • Обучение модели. «Deepseek не был выпущен, поэтому неизвестно, какие гиперпараметры работают лучше всего и как они различаются в разных модельных семьях и масштабах», — сказали исследователи.
  • Масштабирование законов. «Каковы компромиссы вычислений и данных в моделях учебных рассуждений?» Обнимающиеся исследователи спросили.

Эти вопросы приводят к созданию проекта Open-R1, инициативы, которая систематически реконструирует данные DeepSeek-R1 и тренировочный трубопровод, подтверждая его претензии и «раздвигает границы моделей открытых рассуждений», написали исследователи.

«Создавая Open-R1, мы стремимся обеспечить прозрачность на то, как обучение подкреплению может улучшить рассуждения, обмениваться воспроизводимым пониманием с сообществом с открытым исходным кодом и создать основу для будущих моделей для использования этих методов»,-заявили они.

Исследователи об объятиях обнимали свой «план атаки» для Open-R1:

  • Повторите модели R1-Distill, перегоняя высококачественный набор данных рассуждений от DeepSeek-R1.
  • Повторите чистый трубопровод RL, который DeepSeek использовал для создания R1-Zero. Это будет включать в себя курирование новых, крупномасштабных наборов данных для математики, рассуждений и кода.
  • Покажите, что они могут перейти из базовой модели → SFT → RL через многоэтапное обучение.
  • Воспроизведение трубопровода DeepSeek-R1 позволяет исследовательским лабораториям проходить тот же процесс, который проходили DeepSeek, когда они создали DeepSeek-R1 и Deepseek-R1-Zero, которые были рассуждения моделей, дистиллированных от модели фундамента, DeepSeek-V3.

    Цель Open-R1

    Open-R1 не предназначен для создания новых моделей как таковых-это больше о создании и свободной публикации артефактов.

    Одним из пропущенных произведений в опубликованном исследовании Deepseek было то, как перейти от большой, предварительно обученной модели, которая имеет общие знания и была обучена триллионам и триллионам токенов к модели, которая очень хороша в определенной области.

    Ключ заключалась в создании следов рассуждений, которые создаются путем вывода этой «очень способной модели» в определенной области и вопросах, сказал Будье. Следы рассуждений относятся к записи или журналу шагов, которые система ИИ предпринимает для достижения заключения или решения. Думайте об этом как о записи «мыслительного процесса».

    «На самом деле вы можете размещать все. И это также лицензировано MIT, так что вы можете использовать его для любой коммерческой цели. Это действительно, действительно мощно».
    — Джефф Бодье, глава отдела продукта и роста в обнимании лица

    В случае DeepSeek-R1 и R1-Zero рассуждения находятся в определенной области, а не, скажем, на весь интернет.

    «Вы можете взять модель, а затем научить ее через дистилляцию, чтобы быть действительно хорошими в этом конкретном типе задач», объяснил Боудир.

    Это то, что команда Hugbing Face выпустила во втором обновлении-набор данных по математическим рассуждениям под названием Open-R1-Math-220K, который имеет более 200 000 трассов рассуждений для сложных математических вопросов.

    «Синтетические наборы данных позволят каждому настраивать существующие или новые LLMS в модели рассуждения, просто настраивая их»,-сказала команда о наборах данных по математике. «Рецепты обучения с участием RL [reinforcement learning] будет послужить отправной точкой для всех, чтобы создавать аналогичные модели с нуля и позволит исследователям создавать еще более продвинутые методы ».

    Существует большой потенциал в изучении других областей, включая код, а также научные области, такие как медицина, «где модели рассуждений могут оказать существенное влияние», — заявили они.

    Последний релиз

    Проект Open-R1 только что выпустил свое третье обновление, которое Boudier назвал «самым захватывающим обновлением на сегодняшний день».

    Он включает в себя набор данных программирования кода с более чем 100 000 следов рассуждений по программированию событий, полученных из DeepSeek R1. Этот набор данных может использоваться для обучения новых моделей для лучшего понимания нюансов кода, что позволяет модели ИИ объяснить обоснование кода. Из этого команда построила модели параметров Olympiccoder 7 миллиардов и 32 миллиарда.

    «Что действительно захватывающе, так это то, что, применяя трубопровод дистилляции, который они воссоздали из бумаги R1, и от выпуска R1, они смогли создать эти действительно, действительно мощные модели», — сказал Будье. «Чтобы дать вам смысл, модель на 32 миллиарда превосходит Claude Sonnet, которая является современной моделью для передовых задач программирования».

    Команда также выпустила новый эталон IOI, основанный на ежегодном конкурсе конкурентных программ, Международных олимпиадах информатики, — чтобы иметь новый способ измерить способность модели решать более сложные проблемы программирования.

    Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Loraine Lawson — ветеран -репортер, который в течение 25 лет освещал технологические проблемы от интеграции данных до безопасности. Прежде чем присоединиться к новому стеку, она работала редактором Banking Technology Site Bank Automation News. Она … читайте больше от Лорейн Лоусон

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *