Исследователи ИИ в Стэнфорде и Университете Вашингтона смогли подготовить модель «Рассуждения» в области искусства, в соответствии с новой исследовательской документом, опубликованной в прошлую пятницу, за 50 долларов сша.
Модель, известная как S1, работает аналогично передовым моделям рассуждений, таким как OPE O1 и R1 Deepseek, на тестах, измеряющих математические и кодирующие способности. Модель S1 доступна на GitHub, а также данные и код, используемые для его обучения.
Команда, стоящая за S1, сказала, что они начали с готовой базовой модели, а затем настраивали ее через дистилляцию, процесс извлечения возможностей «рассуждения» из другой модели искусственного интеллекта, обучая его ответов.
Исследователи заявили, что S1 дистиллирован от одной из моделей рассуждений Google, Gemini 2.0 Flash Speading Experimental. Дистилляция — это тот же подход, который исследователи Беркли использовали для создания модели рассуждений с ИИ примерно за 450 долларов в прошлом месяце.
Для некоторых идея о том, что несколько исследователей без миллионов долларов за ними все еще могут инновация в пространстве ИИ, захватывающая. Но S1 поднимает реальные вопросы о коммодитизации моделей ИИ.
Где ров, если кто-то может внимательно повторить многомиллионную модель с относительным карманным изменением?
Неудивительно, что крупные лаборатории ИИ не счастливы. OpenAI обвинил DeepSeek в неправильном сборе данных из своего API в целях дистилляции модели.
Исследователи, стоящие за S1, стремились найти самый простой подход к достижению высоких рассуждений и «масштабирования времени испытания», или позволили модели ИИ думать больше, прежде чем она ответит на вопрос. Это были некоторые из прорывов в O1 Openai, которые Deepseek и другие лаборатории ИИ пытались повторить с помощью различных методов.
Бумага S1 предполагает, что модели рассуждений могут быть дистиллированы с относительно небольшим набором данных с использованием процесса, называемого контролируемой тонкой настройкой (SFT), в котором модель ИИ явно проинструктирована имитировать определенное поведение в наборе набора данных.
SFT имеет тенденцию быть дешевле, чем крупномасштабный метод обучения подкрепления, который DeepSeek использовал для обучения своего конкурента на модель O1 Openai, R1.
Google предлагает бесплатный доступ к экспериментальному мышлению Gemini 2.0 Flash, хотя и с ежедневными ограничениями по цене, через свою платформу Google AI Studio.
Условия Google запрещают обратно инженерии своих моделей для разработки услуг, которые конкурируют с собственными предложениями ИИ компании. Мы обратились к Google для комментариев.
S1 основан на небольшой, готовой модели ИИ из китайской лаборатории AI, принадлежащей Alibaba QWEN, которая доступна для бесплатной загрузки. Чтобы обучить S1, исследователи создали набор данных из 1000 тщательно курированных вопросов, в сочетании с ответами на эти вопросы, а также процесс «мышления», лежащего в основе каждого ответа от Google Gemini 2.0 Flash Experimental.
По словам исследователей, после обучения S1, который занял менее 30 минут с использованием 16 графических процессоров NVIDIA H100, S1 достиг высокой производительности в определенных критериях ИИ. Никлас Менененгофф, исследователь из Стэнфорда, который работал над проектом, сказал TechCrunch, что может арендовать необходимый вычисление сегодня за 20 долларов.
Исследователи использовали изящный трюк, чтобы заставить S1 дважды проверить ее работу и продлить свое «мышление»: они сказали ему ждать. Добавление слова «ждать» во время рассуждений S1 помогло модели прийти к немного более точным ответам, согласно бумаге.
В 2025 году Meta, Google и Microsoft планируют инвестировать сотни миллиардов долларов в инфраструктуру ИИ, которая частично пойдет на обучение моделей ИИ следующего поколения.
Этот уровень инвестиций все еще может быть необходим для продвижения конверта инноваций ИИ. Дистилляция показала, что является хорошим методом для дешевого воссоздания возможностей модели искусственного интеллекта, но она не создает новые модели искусственного интеллекта намного лучше, чем то, что доступно сегодня.