АМСТЕРДАМ — В октябре прошлого года Инициатива с открытым исходным кодом (OSI) опубликовала свое определение того, что потребуется для модели ИИ, чтобы стать открытым исходным кодом. В то время исполнительный директор OSI Стефано Маффулли сказал, что определение должно было стать началом разговора.
Это определенно считается правдой. Даже несмотря на то, что разработчики, как правило, придерживались довольно прагматичного подхода к моделям открытого веса и их лицензиях, определение OSI оставило то, что нужно для многих, кто хотел более радикальное определение. Это особенно верно, когда речь идет о данных, используемых для обучения модели, которые, как говорит определение OSI, должно быть подробно описано, но не доступно.
Определение ИИ с открытым исходным кодом
На саммите с открытым исходным кодом в Амстердаме я сел с Маффулли, чтобы поговорить о текущем состоянии обсуждения. Он отметил, что не только начался разговор, но и определение стало инструментом для OSI, чтобы взаимодействовать с политиками, включая Европейскую комиссию, где, например, Закон об искусственном интеллекте вступит в силу в августе 2026 года.
«Это был очень полезный инструмент для нас в дискуссиях в Европейской комиссии — и в некоторой степени также в Соединенных Штатах и в Вашингтоне — для интерпретации Закона ИИ и Закона ИИ и [EU’s] Руководящие принципы для AI общего назначения »,-сказал Маффулли.-Намерение Закона об ИИ состоит в том, чтобы устранить трение и дать привилегированный доступ к разработчикам с открытым исходным кодом, исследователям в академических кругах».
Кредит изображения: новый стек
Он отметил, что руководящие принципы, которые являются интерпретацией Европейской комиссии Закона искусственного интеллекта и определяют обязательства, которые поставщики «моделей ИИ общего назначения» (которые включают практически все крупные языковые модели) в соответствии с Законом об ИИ. Закон и руководящие принципы специально включают исключения для моделей ИИ с открытым исходным кодом. Маффулли отмечает, что он следует за всеми принципами, которые также закодированы в определении ИИ с открытым исходным кодом OSI.
«Они говорят в основном, что для того, чтобы эти препятствия были удалены, вы должны быть прозрачными. Поэтому вы должны быть очень чистыми и ясными в отношении того, что вошло в тренировочный набор», — отметил он и подчеркнул, что политики понимают, почему создание полных тренировочных наборов обычно невозможно.
«Они точно понимают, в чем проблема. У вас нет авторских прав, владения данными, которые они распространяют. Поэтому они знают, что вступило в пересмотр акта авторского права, который дал исключения для добычи текста и данных. И исключения для интеллектуального анализа данных и то, что вы хотите, когда вы можете накапливать все данные, не соблюдаете. И это именно то, что резонирует.
Работая с сообществом с открытым исходным кодом в целом, Маффулли сказал, что большая часть работы заключалась в разъяснении определения ИИ с открытым исходным кодом. Популярная модель, такая как QWEN, может быть открытым весом и лицензирована по разрешению, одобренной OSE, но у разработчика не будет инструментов, кода и данных для воспроизведения работы, которую команда QWEN выполняла для создания модели.
Маффулли признал, что определение OSI устанавливает высокую планку, и что очень немногие модели на самом деле проходят его прямо сейчас.
Инициатива с открытым исходным кодом никогда не была предписывающей. Мы не стандарты, навязывающие штрафы. Конечно, есть пальцы. Есть люди, счастливые указать на вас пальцем и кричать, что вы не правы. Но в открытом исходном коде [in general]Определение вышло из практики и от практиков, и я думаю, что эволюция определения ИИ с открытым исходным кодом будет следовать тому же пути, что и технология, развивается, по мере развития практики и по мере развития закона, что нам не нужно было посоветовать 20 лет назад, и теперь мы имеем ».
Открытые данные
Одна область, в которой он особенно интересует, — это наборы данных, которые составляют данные обучения для новых моделей. Многие компании, по его словам, не стремятся создавать наборы данных, которые более устойчивы к судебным процессам («Я не называю их безопасными с точки зрения авторского права, потому что безопасности нет. Это одна из других вещей, которые мы изучаем», — сказал он).
Многим компаниям теперь очень трудно создавать большие наборы данных из общественной сети, которую он назвал «сокращением». По словам Маффулли, Common Crawl, крупнейший репозиторий данных веб -сканирования, с трудом расширяет свой набор данных, отчасти потому, что сеть все чаще загрязняется с помощью AI Slop, но также потому, что многие крупные сайты и издатели просят их данные.
Это восходит к все более неотложной дискуссии об отношениях между теми, кто создает модели ИИ и онлайн -издатели. Модели зависят от высококачественных данных, которые обычно поступают от новостных организаций или крупных сайтов, таких как переполнение Reddit и Stack, но эти сайты всегда зависят от Google и других поисковых систем, чтобы отправить им читателей, которые затем могут монетизировать, чтобы продолжать создавать этот контент. Рост больших языковых моделей в качестве альтернативы поисковым системам быстро переворачивает эти отношения, потому что немногие пользователи когда -либо нажимают на цитаты LLM.
Позиция Маффулли здесь не может быть хорошо сидеть с издателями. «Если мы хотим иметь публичный ИИ, нам нужно защитить публичную сеть», — сказал он. «Нам нужно защитить налоги и забрать их от издателей. Я думаю, что нет другого пути, кроме как сыграть на карту Google Books. Удавно не должен иметь права голоса. Точно так же, как у нас есть концепция, которая работала с книгами Google, также должна работать и для ИИ, для обучения ИИ — в обмен на публичный ИИ. Вы хотите вступить в секретный сделку, я буду в обмене. Публичный ИИ, извините, это в некоторой степени кажется справедливым ».
Он утверждает, что отношения между фирмами ИИ и издателями и такими проектами, как Common Crawl, не имеют равновесия. Но на данный момент у нас нет ни юридической основы (потому что, по его словам, авторское право не работает в таком масштабе), ни технические рамки для восстановления этого баланса.
Я также сказал бы, что для издателей доступ к публичному ИИ, обученному их данным, может быть недостаточно, чтобы сделать их данные открыто доступными.
«У нас есть много работы, если вы хотите иметь действительно общедоступные наборы данных-наборы данных, которыми мы можем поделиться, и мы можем развить, и мы можем построить большие-и мы говорим о больших-языковых моделях, технологиях в стиле GPT. Мы должны работать над этим. Мы должны говорить о управлении. У нас нет хороших способов доказать владение владением.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Прежде чем присоединиться к новому стеку в качестве старшего редактора для ИИ, Фредерик был редактором предприятия в TechCrunch, где он освещал все, от роста облака и самых ранних дней Kubernetes до появления квантовых вычислений …. Подробнее от Frederic Lardinois