В этом году запомнится как прорывной год для систем ИИ с открытым исходным кодом. Настроение сместилось от страха перед рисками, связанными с ИИ с открытым исходным кодом, который доминировал в публичных дебатах за последние два года. Выпуск моделей DeepSeek Open Weights еще раз доказал, что «нет рва» и что открытые решения могут конкурировать с замкнутыми моделями фундамента и поддерживать инновации в экосистемах открытых развития.
В последние месяцы постоянный поток развития новых моделей, версий и деривативов стал нормой. Это не преувеличение, чтобы сказать, что в моделях ИИ с открытым исходным кодом есть бум.
К сожалению, на этом фоне мы видим проблему на переднем плане: ландшафт данных остановился. Был гораздо меньше прогресса в общественных или открытых учебных наборах, даже если все согласны с тем, что данные являются ключевым ресурсом, необходимым для создания лучших систем ИИ.
Где открытые данные? Обнимая ползание
Одним из наиболее важных выпусков набора данных в 2024 году был FineWeb’s Huggingface, названный «лучшими 15 токенами, которые может предложить Интернет». Это очищенная и оптимизированная версия общих дамбов для полза, которая была источником учебных данных практически для всех LLMS. Другой крупный релиз, набор данных Dolma от AI2, также уточняет общие данные для сканирования и объединяет их с выбранными источниками открытых данных.
Недавний прогресс в открытых наборах данных показывает обещание для создания полностью открытых моделей ИИ без юридических ограничений. Pleias, французский стартап, создал Common Corpus, набор обучения LLM, основанный только на источниках допустимо лицензии. Spawning создал PD12M, набор данных об открытом доступе с более чем 12 миллионами пар изображений.
Несмотря на то, что эти достижения приносят пользу развитию ИИ и обеспечивают создание ИИ с открытым исходным кодом, они сосредоточены в первую очередь на извлечении максимальной стоимости из существующих ресурсов посредством агрегации и уточнения.
Невысказанная стоимость проприетарных данных ИИ
Развитие ИИ с открытым исходным кодом остается в постоянном недостатке. Частные лаборатории искусственного интеллекта, которые выпускают закрытые модели и не раскрывают источники данных, используют различные типы проприетарных данных или данных, для которых они не имеют правовой основы для повторного использования. Stefano Maffulli из инициативы с открытым исходным кодом (OSI) описывает это как привязанность к получению данных, сгенерированных людьми, и питает их в проприетарную систему, которая предоставляет доступ по цене.
Ставки для обмена данными высоки и выходят за рамки проблем, связанных с обучением ИИ. Стефан Верхулст утверждает, что мы могли бы войти в «длительную зиму». В то время как корпоративные лаборатории искусственного интеллекта продолжают полагаться на различные запатентованные источники данных, мы видим сигналы о том, что обмен данными уменьшается: веб-домены ограничивают доступ для веб-ползаний, связанных с AI, а социальные сети удаляют даже ограниченные формы доступа к данным, которые существуют. Зима данных будет особенно сложной для разработчиков ИИ с открытым исходным кодом, которым не хватает бюджетов, необходимых для приобретения запатентованных данных, и для которых принципы прозрачности данных и доступа еще больше ограничивают источники данных, с которыми они могут работать.
От эксплуатации до сотрудничества
Какой тип коллективных действий может помочь предотвратить зиму данных при укреплении подходов, которые объединяют обмен данными с ответственным управлением, обеспечивают качество данных и защищают права на данные?
Прошлым летом инициатива с открытым исходным кодом и открытое будущее созвали группу экспертов для изучения этой задачи и предложить путь вперед. В недавнем опубликованном отчете «Управление данными в области искусственного интеллекта с открытым исходным кодом» утверждается, что необходимы коллективные действия, чтобы выпустить больше данных и улучшить управление данными, чтобы сбалансировать общий обмен с ответственным выпуском.
Требуются два смены парадигмы. Во -первых, разработчики ИИ больше не могут позволить себе создавать только наборы данных, рассматривая огромные тела знаний, культуры и информации как необработанного ресурса, который они могут превратить в токены. Наборы данных должны рассматриваться как инструменты для решения проблем разработки ИИ и удовлетворения потребностей других заинтересованных сторон. Это влечет за собой сотрудничество, прежде всего, с стюардами и владельцами различных открытых и публичных коллекций, проводимых архивами, исследовательскими институтами, культурными организациями и гражданскими проектами.
Во -вторых, нам нужно опираться на основы открытых данных, но все чаще думать о данных как об общих. Подход открытых данных может иметь большое значение для развития ИИ и особенно подходит для общедоступных ресурсов. Тем не менее, многие типы данных могут быть полезными, но для которых открытое обмен не соответствует предотвращению эксплуатации данных. Нам нужны различные модели обмена данными и управления, чтобы сбалансировать открытость с контролем. На рубеже 2024 года был запущен многообещающий пилот Data Trust не AI Lab, а художественная галерея: Serpentine Labs создала доверие данных, чтобы управлять набором хоровой области AI, коллекцию хор -записей.
Следующая революция не будет соскреблена
Необходимость выйти за рамки парадигмы соскоба данных, и для этих двух сдвигов может быть проиллюстрирована с помощью примера Bluesky. Платформа публично делится данными через открытый API, который особенно подходит для машинного использования. В конце 2024 года архивариус данных HuggingFace Data загрузил 1 миллион сообщений и упаковал их в общедоступный набор учебного заведения. Несколько дней спустя набор данных был снят под давлением пользователей Bluesky, возражающих против их используемых данных. В результате Bluesky начал разработать основу для мелкозернистого выражения «пользовательских намерений для повторного использования данных», которая в настоящее время консультируется с сообществом пользователей.
Надеемся, что изысканный подход к использованию Bluesky Data для обучения искусственному интеллекту станет основной инновацией набора данных, в которой нуждаются разработчики ИИ с открытым исходным кодом, и это демонстрирует ценность управления участием и общего пользования.
Строительство коллективной силы, чтобы поддерживать открытую, прозрачную и справедливую
Хотя многие технические проблемы по -прежнему связаны с такими проблемами, как качество данных и предвзятость, прозрачность данных или экологическая устойчивость, несколько команд решают их в экосистемах открытых разработок.
Они требуют институциональной поддержки для обеспечения устойчивости усилий Data Commons. На Саммите ИИ в Париже была запущена текущая ИИ инициатива, с первоначальным бюджетом в 400 миллионов долларов и сосредоточенным на обмене данными, а не на разработке ИИ. Это создает возможность создать новую экосистему Data Commons, которая является столь же успешной, как и экосистема с открытым исходным кодом.
В значительной степени реальная инновация, которую мы увидим в ИИ с открытым исходным кодом, не в моделях — это в наборах данных. Мы должны сделать все, что в наших силах, чтобы обеспечить, чтобы будущие наборы данных были основаны на данных Data Commons с управлением и контролем.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом.