Пыль все еще урегулирует после недавнего выпуска Deepseek R-1, китайской модели большого языка, которая якобы находится на одном уровне с Operai’s O1 LLM для рассуждений, но обучалась примерно за 6 миллионов долларов-доля около 100 миллионов долларов. Поезд Opena1 O1.
В связи с тем, что вес и код вывода модели R1 открыто выпущены на обнимании лица и GitHub соответственно, также стоит отметить, что код обучения и сами данные обучения не были опубликованы. Но в то время как DeepSeek, похоже, формируется как история успеха с открытым исходным кодом, в результате выпадение как на фондовом рынке, так и на более широкой индустрии искусственного интеллекта намекают на потенциальное изменение парадигмы в ландшафте LLM.
Итак, как работает DeepSeek-R1, на что он способен и каковы некоторые потенциальные недостатки? Давайте перейдем к капюшону, чтобы посмотреть на его модельную архитектуру, возможности и недостатки.
Модель архитектура DeepSeek-R1
Через Open-R1: полностью открытое воспроизведение DeepSeek-R1
Вот что мы знаем об архитектуре:
Смесь экспертов: DeepSeek-R1 использует архитектуру модели смеси экспертов (MOE), которая делит модель на несколько «экспертных» подсчетов, которые каждый из них превосходит в обработке подмножества входных данных. Это означает, что только соответствующие части модели активируются при выполнении задач, что приводит к более низкому потреблению вычислительных ресурсов.
Уравновешивание стробирования и безрассудки балансировки нагрузки: Эта селективная активация 671 миллиарда параметров DeepSeek достигается с помощью механизма стробирования, который динамически направляет входы на соответствующие эксперты, тем самым повышая эффективность вычислительной техники, не препятствуя производительности или масштабируемости. С каждым токеном только 37 миллиардов параметров активируется во время одного прямого прохода, при этом методы, такие как балансировка нагрузки без потерь, что помогает гарантировать, что использование всех экспертных подсети распределяется равномерно для предотвращения узких полов.
Длина контекста: DeepSeek-R1 построен из базовой модели архитектуры DeepSeek-V3. Оба оснащены длиной контекста 128K, которая расширяется с помощью техники, называемой пряжей (еще одно расширение веревки), которая расширяет окно контекста LLMS. Пряжа представляет собой улучшенную версию вращающихся позиционных встроений (веревка), тип положения, встраивающегося, которая кодирует абсолютную позиционную информацию с использованием матрицы вращения, причем пряжа будет эффективно интерполировать, как эти частоты вращения в матрице будут масштабироваться. Это практичный способ увеличить длину контекста модели и улучшить обобщение для более длинных контекстов без необходимости дорогостоящего переподготовки.
Слои: DeepSeek-R1 оснащен встроенным слоем, а также 61 слоем трансформатора. Вместо типичных механизмов мультиголовного внимания (MHA) на слоях трансформатора, первые три слоя состоят из инновационных слоев скрытого внимания (MLA) и стандартного слоя Feed Forward Network (FFN).
Многообещающее внимание: Согласно команде, MLA оснащен сжатием суставов с низким уровнем клавиш, которая требует гораздо меньшего количества кэша ключевой стоимости (KV) во время вывода, что снижает накладные расходы на накладные расходы до 5-13 процентов по сравнению с обычными методами, и предлагая лучшую производительность, чем MHA. Уровень смеси-0F-эксперта заменяет слой Feed Forward Network (FFN) от слоев 4–61, чтобы обеспечить легкость масштабируемости, эффективное обучение и снизить вычислительные затраты.
Предсказание мульти-ток: Это продвинутый подход к языковому моделированию, который предсказывает параллельные множественные будущие токены в последовательности, а не по одному последующему слову за раз. Первоначально представленная Meta, Multi-Token Prediction (MTP) позволяет модели использовать несколько путей прогнозирования (также называемых «головами»), что позволяет улучшить ожидание представлений токенов и повысить эффективность и производительность модели на контрольных тестах. Возможности DeepSeek-R1
DeepSeek-R1 демонстрирует современное выступление по различным показателям рассуждений, особенно в вопросах, связанных с математикой и связанными с ними дисциплинами. На некоторых математических показателях было показано, что он превзошел Operai’s O1. Это опытно в сложных рассуждениях, ответах на вопросы и задачах обучения. В частности, комбинация приведенных ниже функций делает R1 отличным от его конкурентов.
Через adasci.org
Подкрепление обучения с групповой относительной оптимизацией политики: DeepSeek-R1 был построен на вершине предыдущей модели, DeepSeek-V3-база, используя многочисленные этапы обучения с контролируемой точной настройкой и обучением подкреплению с оптимизацией относительной политики группы. GRPO специально разработан для улучшения способностей рассуждений и сокращения вычислительных накладных расходов путем устранения необходимости внешней модели «критики»; Вместо этого он оценивает группы ответов относительно друг друга. Эта функция означает, что модель может постепенно улучшить свои возможности рассуждений в направлении более вознагражденных результатов с течением времени, без необходимости больших количеств маркированных данных.
Награда моделирование: Этот пробный и ошибочный подход к обучению стимулирует модель к ответам, которые являются правильными и хорошо разобразными. Это происходит путем назначения обратной связи в виде «сигнала вознаграждения», когда задача выполняется, что помогает сообщить, как может быть дополнительно оптимизирован процесс обучения подкрепления.
Данные о холодном старте: DeepSeek-R1 использует данные о «холодном» для обучения, что относится к минимально помеченному высококачественному, контролируемому набору данных, который «ударил» обучение модели, так что он быстро достигает общего понимания задач.
Цепь мысли: DeepSeek-R1 использует цепь мышления (COT), чтобы выполнить задачи рассуждения и выполнять самооценку. Это имитирует, подобные человеку рассуждения, инструктируя модель структурированным образом разрушать сложные задачи, что позволяет логически вывести последовательный ответ и в конечном итоге улучшать читабельность своих ответов.
Отбор проб отказа: Модель также использует выборку отклонения для отсеивания данных о низких качествах, что означает, что после создания различных выходов модель выбирает только те, которые соответствуют конкретным критериям для дальнейших эпох точной настройки и обучения.
Дистилляция: Используя кураторный набор данных, DeepSeek-R1 был дистиллирован в более мелкие открытые версии, которые являются относительно высокопроизводительными, но дешевле, особенно используя архитектуры QWEN и Llama.
Через «DeepSeek-R1: стимулирование возможностей рассуждения в LLMS посредством обучения подкреплению», исследовательская статья.
Потенциальные ловушки
С любой моделью есть недостатки, которые необходимо сбалансировать с более широкой картиной производительности и стоимости. По мнению исследователей безопасности искусственного интеллекта в Appsoc и Cisco, вот некоторые из потенциальных недостатков DeepSeek-R1, которые предполагают, что надежная сторонняя безопасность и «ограждения» могут быть мудрым дополнением при развертывании этой модели.
Безопасность: DeepSeek-R1 может быть уязвим для привлечения атак впрыска, что приводит к ошибочным результатам и потенциально скомпрометированным системам. При тестировании DeepSeek-R1 показал, что он может быть способен генерировать вредоносное ПО в виде вредоносных сценариев и фрагментов кода.
Безопасность: При тестировании с помощью методов джейлбрейка, DeepSeek-R1 последовательно смог обойти механизмы безопасности и генерировать вредное или ограниченное содержание, а также ответы с токсичными или вредными словами, указывая на то, что модель уязвима для алгоритмического джейлбрейка и потенциального неправильного использования.
Галлюцинации: DeepSeek-R1 может быть подвержен генерации ложных или изготовленных ответов. Заключение
Несмотря на эти недостатки, DeepSeek-R1 демонстрирует потенциальную силу системы вознаграждения, лежащей в основе обучения подкреплению при применении к LLMS.
Во время учебного процесса DeepSeek-R1 стало ясно, что благодаря полезным и последовательным ответам зарождающееся модельное поведение, такие как саморефлексии, самоверизация, длинноцепочечные рассуждения и автономное решение проблем, указывают на возможность возникающих рассуждений, которые изучаются над Время, а не явно преподавалось — таким образом, возможно, прокладывая путь к дальнейшим прорывам в исследованиях ИИ.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Кимберли Мок — репортер технологий и дизайна, который охватывает искусственный интеллект, робототехнику, квантовые вычисления, техническую культуру и научные истории для нового стека. Обученная как архитектор, она также является иллюстратором и междисциплинарным дизайнером, который был увлечен … Подробнее от Kimberley Mok