Olmo 3 от Ai2 расширяет возможности производительности LLM с открытым исходным кодом

Институт искусственного интеллекта Аллена (Ai2) сегодня представил Olmo 3, новейшую модель в своем семействе современных моделей больших языков (LLM) с открытым исходным кодом.

Хотя термины «открытый исходный код» и LLM имеют довольно сложную взаимосвязь, Ai2 вместе со Стэнфордскими моделями Marin и швейцарскими моделями Apertus возглавила задачу прозрачности того, как обучаются модели, включая данные и рецепты, которые использовала команда.

Olmo 3, утверждает Ai2, превосходит многие другие модели с открытым исходным кодом и открытым исходным кодом по большинству стандартных тестов и называет Olmo 3 «лучшей американской моделью с открытым исходным кодом в этом масштабе» и «лучшей западной моделью обучения и мышления 7B на рынке».

Новое семейство моделей, которое команда выпустила под лицензией Apache 2.0, состоит из трех основных вариантов: Olmo 3-Base (7B и 32B), Olmo 3-Think (7B и 32B) и Olmo 3-Instruct (7B).

Тесты

Производительность Olmo 3-Think 32B по сравнению с Qwen 3 32B и другими моделями. (Фото: Ai2)

Базовая модель составляет основу моделей Think и Instruct, а модель Olmo 3-Think является здесь флагманской, и Ai2 впервые выпустила модель рассуждения. Его производительность близка к другим моделям открытого веса, таким как Qwen 3-32B-Thinking, хотя он был обучен лишь на шестой части количества токенов.

Olmo 3-Think был обучен выполнять пошаговые рассуждения и генерировать промежуточные следы мышления.

Что касается модели Instruct, которая поставляется только в меньшем размере 7B, после обучения команда сосредоточила внимание на том, чтобы заставить ее следовать инструкциям и добиться успеха в многооборотном диалоге и использовании инструментов. Команда утверждает, что он превосходит по производительности такие модели, как Qwen 2.5, Google Gemma 3 и Llama 3, и даже приближается по производительности к Qwen 3.

Общая архитектура не сильно отличается от Olmo 2, но команда удвоила контекстное окно во время предварительного и среднего обучения до 8192 токенов и реализовала шаблон внимания скользящего окна на трех из четырех слоев.

1 кредит.

Действительно модель с открытым исходным кодом

Как рассказала мне Ханна Хаджиширзи, директор по искусственному интеллекту в Ai2 и профессор информатики в Вашингтонском университете, часть идеи этого нового семейства моделей заключалась в том, чтобы продемонстрировать разработчикам, как создавать эти самые современные модели на основе различных потоков моделей после обучения.

Вот почему здесь так важен подход с открытым исходным кодом, потому что он позволяет разработчикам создавать свои собственные варианты и легче настраивать модели для своих целей, работая с контрольными точками, которые им предоставляет Ai2.

«В наши дни, когда люди выпускают языковые модели, мы все знаем, что они прошли много-много этапов обучения, но мы видим только финальное состояние, иначе все закрывается», — объяснил Хаджиширзи. «Вся эта разработка модели — это то, что мы называем «потоками модели», и все они очень важны для совместного использования, поскольку они позволяют разработчикам осуществлять бесконечную настройку, позволяя разработчикам брать разные части и разные этапы разработки модели, а затем создавать свою собственную модель».

Прадип Дасиги, старший научный сотрудник Ai2, который, как и Хаджиширзи, также участвовал в создании предыдущих моделей Олмо, добавил: «Потому что все рецепты данных открыты, если [developers] хотят специализировать его в конкретной области, например, биомедицинской инженерии или что-то в этом роде, они всегда могут курировать свои собственные наборы данных. Отчеты, которые мы выпустили, и результаты, связанные с [them] четко расскажет им, что сработало, а что нет. Выпускаем сценарии и всё. Они могут использовать наши рецепты для создания своих собственных наборов данных, синтезировать свои наборы данных и быстро придумать что-то, что действительно работает для них, а также пройти соответствующую контрольную точку и продолжить тонкую настройку».

Лучшие данные = лучшие модели

В дополнение к моделям Ai2 также предоставляет наборы данных для предварительного обучения Dolma 3. Этот набор в основном состоит из веб-данных из Common Crawl, кода GitHub, большого количества научных статей, статей в Википедии и математических веб-страниц. Команда также предоставляет свой набор данных Dolci для постобучения и инструменты оценки, а также код, который она использовала для создания цепочки инструментов обучения с подкреплением, которую команда использовала для обучения своих вариантов модели.

Чтобы обеспечить качество обучающих данных, команда дедуплицировала набор данных, а чтобы добавить в него новые данные, она распознала многие научные статьи, использованные для обучения модели.

Данные тренировки Olmo 3. (Фото: Ai2)

Команда также разработала инструменты, позволяющие увидеть, какие данные действительно помогли улучшить модели.

«Предварительное обучение стоит дорого, и нам нужно было разработать некоторые стратегии развития, и мы потратили много времени на изучение наших законов масштабирования, улучшение нашей методологии экспериментов и так далее, чтобы в меньшем масштабе, с использованием самых дешевых единиц экспериментирования, мы могли показать некоторые сигналы о том, почему этот фрагмент данных хорош, а почему он плох», — сказал мне Хаджиширзи. «Это помогло нам лучше курировать данные, потому что, например, PDF-файлы: они кажутся полезными, но не все из них полезны, верно? Поэтому нам нужно много фильтровать, много курировать, различные типы линеаризации. Как нам это убрать? Потому что нам удалось разработать очень хорошую методологию экспериментов».

Вы можете прочитать полную версию статьи, в которой более подробно рассказывается о процедурах обучения и о том, как команда создавала различные наборы обучающих данных.

Все модели и наборы данных теперь также доступны на Hugging Face.

ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Прежде чем присоединиться к The New Stack в качестве старшего редактора по искусственному интеллекту, Фредерик был корпоративным редактором в TechCrunch, где освещал все, от появления облака и первых дней Kubernetes до появления квантовых вычислений…. Подробнее от Фредерика Лардинуа

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *