LLMS с открытым исходным кодом в Европе цифровой суверенитет

Большие языковые модели (LLMS) приземлились на европейской программе суверенитета на прошлой неделе на прошлой неделе, поскольку появились новости о новой программе по разработке серии «по -настоящему» с открытым исходным кодом, охватывающим все языки Европейского союза.

Это включает в себя нынешние 24 официальных языков ЕС, а также языки для стран, которые в настоящее время ведем переговоры о входе на рынок ЕС, такие как Албания. Будущая защита-это название игры.

OpenEurollm-это сотрудничество между 20 организациями, под руководством Яна Хаджича, вычислительного лингвиста из Университета Чарльза в Праге, и Питер Сарлин, генеральный директор и соучредитель финской лаборатории AI Silo, который AMD приобрел в прошлом году за 665 миллионов долларов сша за 665 миллионов долларов сша за 665 миллионов долларов Полем

Проект соответствует более широкому повествованию, в котором Европа выдвигает цифровой суверенитет в качестве приоритета, что позволяет ему приблизить критически важную инфраструктуру и инструменты к дому. Большинство облачных гигантов инвестируют в местную инфраструктуру, чтобы гарантировать, что данные ЕС остаются локальными, в то время как AI Darling Openai недавно обнародовал новое предложение, которое позволяет клиентам обрабатывать и хранить данные в Европе.

В другом месте ЕС недавно подписал сделку на 11 миллиардов долларов на создание суверенного спутникового созвездия для соперника Starlink Элона Маска.

Таким образом, OpenEuurollm, безусловно, в бренде.

Тем не менее, заявленный бюджет только на создание самих моделей составляет 37,4 млн. Евро, причем примерно 20 миллионов евро поступит из программы цифровой Европы ЕС — падение океана по сравнению с тем, что инвестируют гиганты корпоративного мира ИИ. Фактический бюджет больше, если вы учитываете финансирование, выделяемое для тангенциальной и связанной с этим работ, и, возможно, самым большим затратом является вычисление. Партнеры проекта OpenEurollm включают в себя центры суперкомпьютеров EuroHPC в Испании, Италии, Финляндии и Нидерландах — а более широкий проект EuroHPC имеет бюджет около 7 миллиардов евро.

Но огромное количество разрозненных участвующих сторон, охватывающих академические круги, исследования и корпорации, заставило многих задаться вопросом, достижимы ли его цели. Анастасия Стасенко, соучредитель компании LLM Pleias, спросила, может ли «обширные консорциумы из более чем 20 организаций» иметь такую ​​же измеренную направленность на доморощенную частную фирму ИИ.

«Недавние успехи Европы в ИИ сияют через небольшие сфокусированные команды, такие как Mistral AI и Lighton — компании, которые действительно владеют тем, что они строят», — написал Стасенко. «Они несут немедленную ответственность за свой выбор, будь то в финансах, позиционировании рынка или репутации».

До царапины

Проект OpenEurollm либо начинается с нуля, либо у него есть старт — в зависимости от того, как вы на него смотрите.

С 2022 года Хаджич также координирует проект высокопроизводительных языков (HPLT), который намеревался разработать бесплатные и многократные наборы данных, модели и рабочие процессы с использованием высокопроизводительных вычислений (HPC). Этот проект должен закончиться в конце 2025 года, но, по словам Хаджича, его можно рассматривать как своего рода «предшественник», учитывая, что здесь также участвуют большинство партнеров по HPLT (кроме британских партнеров).

«Этот [OpenEuroLLM] На самом деле это просто более широкое участие, но больше сосредоточено на генеративных LLM », — сказал Хаджич. «Таким образом, он не начинается с нуля с точки зрения данных, опыта, инструментов и вычисления опыта. Мы собрали людей, которые знают, что они делают — мы должны быть в состоянии быстро встать на скорость ».

Хаджич сказал, что он ожидает, что первые версии (ы) будут выпущены к середине 2026 года, причем последняя итерация (ы) появится в результате вывода проекта в 2028 году. Но эти цели все еще могут показаться высокими, если учесть, что не так много Толк еще за пределами профиля Github с голой кости.

«В этом отношении мы начинаем с нуля — проект начался в субботу [February 1]- сказал Хаджич. «Но мы готовили проект в течение года [the tender process opened in February 2024].

Из академических кругов и исследований организации, охватывающие Чехию, Нидерланды, Германию, Швецию, Финляндию и Норвегию, являются частью когорты OpenEurollm, в дополнение к центрам EuroHPC. Из корпоративного мира в Финляндии, принадлежащей AI Lab Silo AI, а также Алеф Альфа (Германия), Элламинд (Германия), Инженерная инженерия Prompsit (Испания) и Лайон (Франция).

Одним из примечательных упущений из списка является состав французского AI Unicorn Mistral, который позиционировал себя в качестве альтернативы с открытым исходным кодом для таких должностных лиц, таких как Openai. В то время как никто из Мистрала не ответил на TechCrunch для комментариев, Хаджич подтвердил, что он пытался инициировать разговоры со стартапом, но безрезультатно.

«Я пытался подойти к ним, но это не привело к целенаправленной дискуссии об их участии», — сказал Хаджич.

Проект все еще может собрать новых участников в рамках программы ЕС, которая обеспечивает финансирование, хотя он будет ограничен организациями ЕС. Это означает, что организации из Великобритании и Швейцарии не смогут принять участие. Это противоречит программе исследований и разработок Horizon, которую Великобритания присоединилась к 2023 году после длительного тупика Brexit и которая обеспечила финансирование HPLT.

Наращивать

Цель проекта, согласно его слогана, состоит в том, чтобы создать: «Серия моделей фундамента для прозрачного искусственного интеллекта в Европе». Кроме того, эти модели должны сохранить «лингвистическое и культурное разнообразие» всех языков ЕС — текущего и будущего.

То, на что это переводится с точки зрения результатов, все еще исключено, но это, вероятно, будет означать основной многоязычный LLM, предназначенный для задач общего назначения, где точность имеет первостепенное значение. А затем также меньшие «квантовые» версии, возможно, для применений в крае, где эффективность и скорость более важны.

«Это то, о чем мы все еще должны составить подробный план», — сказал Хаджич. «Мы хотим, чтобы это было максимально маленьким, но максимально качественным. Мы не хотим выпускать что-то, что выпечено, потому что из европейской точки зрения это высокие ставки, с большим количеством денег от Европейской комиссии-государственные деньги ».

Хотя цель состоит в том, чтобы сделать модель максимально опытной на всех языках, достижение равенства по всем направлениям также может быть сложным.

«Это цель, но насколько успешным мы можем быть с языками с дефицитными цифровыми ресурсами, является вопрос», — сказал Хаджич. «Но именно поэтому мы хотим иметь истинные критерии для этих языков, и не подходить к критериям, которые, возможно, не являются репрезентативными для языков и культуры, стоящей за ними».

С точки зрения данных, именно здесь большая часть работы от проекта HPLT окажется плодотворной, а версия 2.0 его набора данных выпущена четыре месяца назад. Этот набор данных был обучен 4,5 петабайтами веб-ползаний и более 20 миллиардов документов, и Хаджич сказал, что они добавят дополнительные данные из Common Crawl (открытый репозиторий данных по полной поверхности) в микс.

Определение с открытым исходным кодом

В традиционном программном обеспечении многолетняя борьба между открытым исходным кодом и проприетарным вращением вокруг «истинного» значения «открытого исходного кода». Это может быть разрешено путем отложения на официальное «определение» в соответствии с инициативой с открытым исходным кодом, управляющими отраслью того, что является и не является законным лицензиями с открытым исходным кодом.

Совсем недавно OSI сформировала определение «ИИ с открытым исходным кодом», хотя не все довольны результатом. Сторонники ИИ с открытым исходным кодом утверждают, что модели должны быть не только свободно доступны, но и наборы данных, предварительные модели, веса — полный шебанг. Определение OSI не делает учебные данные обязательным, потому что в нем говорится, что модели искусственного интеллекта часто обучаются собственным данным или данным с ограничениями перераспределения.

Достаточно сказать, что OpenEurollm сталкивается с этими же затруднениями, и, несмотря на свои намерения быть «по -настоящему открытыми», ему, вероятно, придется поставить некоторые компромиссы, если это будет выполнять свои «качественные» обязательства.

«Цель состоит в том, чтобы все открылось. Теперь, конечно, есть некоторые ограничения », — сказал Хаджич. «Мы хотим иметь модели максимально высокого качества, и, основываясь на европейской директиве об авторском праве, мы можем использовать все, что мы можем получить в свои руки. Некоторые из них не могут быть перераспределены, но некоторые из них можно хранить для будущей проверки ».

Это означает, что проект OpenEurollm, возможно, должен держать некоторые учебные данные в разделе обертывания, но быть доступным для аудиторов по запросу-как требуется для систем ИИ высокого риска в соответствии с условиями Закона ЕС.

«Мы надеемся, что большинство данных [will be open]особенно данные, поступающие от общего ползания », — сказал Хаджич. «Мы хотели бы, чтобы все это было полностью открыто, но мы увидим. В любом случае, нам придется соблюдать правила ИИ ».

Два на один

Другая критика, которая возникла после формального открытия OpenEuurollm, заключалась в том, что в Европе был запущен очень похожий проект всего несколько коротких месяцев назад. Eurollm, которая запустила свою первую модель в сентябре и продолжение в декабре, финансируется ЕС вместе с консорциумом из девяти партнеров. К ним относятся академические учреждения, такие как Эдинбургский университет и такие корпорации, как Unbabel, которые в прошлом году выиграли миллионы часов обучения графических процессоров на суперкомпьютерах ЕС.

Eurollm разделяет аналогичные цели со своими почти намелькой: «Чтобы построить европейскую модель крупного языка с открытым исходным кодом, которая поддерживает 24 официальных европейских языков и несколько других стратегически важных языков».

Андре Мартинс, глава отдела исследований в Небабеле, отправился в социальные сети, чтобы подчеркнуть эти сходства, отметив, что OpenEurollm присваивает имя, которое уже существует. «Я надеюсь, что разные сообщества открыто сотрудничают, делятся своим опытом и не решают заново изобрести колесо каждый раз, когда новый проект финансируется», — написал Мартинс.

Хаджич назвал ситуацию «неудачной», добавив, что он надеялся, что они смогут сотрудничать, хотя он подчеркнул, что из-за источника его финансирования в ЕС OpenEuurollm ограничен с точки зрения его сотрудничества с организациями, не являющимися в ЕС, в том числе Великобритании университеты.

Разрыв в финансировании

Прибытие DeepSeek в Китае и соотношение стоимости к производительности, которое он обещает, дали некоторую поддержку, что инициативы искусственного интеллекта могут сделать гораздо больше с гораздо меньше, чем изначально. Однако за последние несколько недель многие подвергли сомнению истинные затраты, связанные с построением DeepSeek.

«Что касается DeepSeek, мы на самом деле очень мало знаем о том, что именно вступило в его создание»,-сказал TechCrunch, который занимается техническим соавтором в проекте OpenEurollm, который является техническим соавтором в проекте OpenEurollm.

Несмотря на это, Sarlin считает, что OpenEurollm будет иметь доступ к достаточным финансированию, поскольку в основном это охватывает людей. Действительно, вычисляется большая часть затрат на строительство систем искусственного интеллекта, и это следует в основном покрывать его партнерством с центрами EuroHPC.

«Вы могли бы сказать, что OpenEuurollm на самом деле имеет довольно значительный бюджет», — сказал Сарлин. «EuROHPC инвестировал миллиарды в ИИ и вычислил инфраструктуру и посвятил больше миллиардов в расширение этого в ближайшие несколько лет».

Стоит также отметить, что проект OpenEurollm не создается в отношении продукта потребительского или предприятия. Это исключительно о моделях, и именно поэтому Сарлин считает, что бюджет, который он имеет, должен быть достаточным.

«Цель здесь не в том, чтобы построить чат -бот или помощник искусственного интеллекта — это была бы инициатива по продукту, требующая больших усилий, и это то, что ЧАТГПТ сделал так хорошо», — сказал Сарлин. «Мы вносим свой вклад в фонд с открытым исходным кодом, которая функционирует как инфраструктура искусственного интеллекта для компаний в Европе. Мы знаем, что нужно для создания моделей, это не то, для чего вам нужно миллиарды ».

С 2017 года Сарлин возглавил AI Lab Silo AI, который запустил — в партнерстве с другими, включая проект HPLT — семейство открытых моделей Poro и Viking. Они уже поддерживают несколько европейских языков, но теперь компания готовит следующие итерационные модели «Европа», которые будут охватывать все европейские языки.

И это связано со всем понятием «не начинается с нуля», поддерживаемой Хаджичами — уже существует основание знаний и технологий.

Суверенное состояние

Как отмечали критики, у OpenEuurollm есть много движущихся частей, что, как признает Хаджич, хотя и с позитивным перспективами.

«Я участвовал во многих совместных проектах, и я считаю, что у него есть свои преимущества по сравнению с одной компанией», — сказал он. «Конечно, они сделали отличные дела, как Openai для Mistral, но я надеюсь, что сочетание академической экспертизы и внимания компаний может принести что -то новое».

И во многих отношениях дело не в том, чтобы пытаться пережить крупные технологии или стартапы искусственного интеллекта в миллиард долларов; Конечной целью является цифровой суверенитет: (в основном) открытый фонд LLMS, построенный и для Европы.

«Я надеюсь, что это не так, но если, в конце концов, мы не являемся моделью номер один, и у нас есть« хорошая »модель, у нас все равно будет модель со всеми компонентами, основанными в Европе, Хаджич сказал. «Это будет положительный результат».