Большие языковые модели (LLMS) приземлились на европейской программе суверенитета на прошлой неделе на прошлой неделе, поскольку появились новости о новой программе по разработке серии «по -настоящему» с открытым исходным кодом, охватывающим все языки Европейского союза.
Это включает в себя нынешние 24 официальных языков ЕС, а также языки для стран, которые в настоящее время ведем переговоры о входе на рынок ЕС, такие как Албания. Будущая защита-это название игры.
OpenEurollm-это сотрудничество между 20 организациями, под руководством Яна Хаджича, вычислительного лингвиста из Университета Чарльза в Праге, и Питер Сарлин, генеральный директор и соучредитель финской лаборатории AI Silo, который AMD приобрел в прошлом году за 665 миллионов долларов сша за 665 миллионов долларов сша за 665 миллионов долларов Полем
Проект соответствует более широкому повествованию, в котором Европа выдвигает цифровой суверенитет в качестве приоритета, что позволяет ему приблизить критически важную инфраструктуру и инструменты к дому. Большинство облачных гигантов инвестируют в местную инфраструктуру, чтобы гарантировать, что данные ЕС остаются локальными, в то время как AI Darling Openai недавно обнародовал новое предложение, которое позволяет клиентам обрабатывать и хранить данные в Европе.
В другом месте ЕС недавно подписал сделку на 11 миллиардов долларов на создание суверенного спутникового созвездия для соперника Starlink Элона Маска.
Таким образом, OpenEuurollm, безусловно, в бренде.
Тем не менее, заявленный бюджет только на создание самих моделей составляет 37,4 млн. Евро, причем примерно 20 миллионов евро поступит из программы цифровой Европы ЕС — падение океана по сравнению с тем, что инвестируют гиганты корпоративного мира ИИ. Фактический бюджет больше, если вы учитываете финансирование, выделяемое для тангенциальной и связанной с этим работ, и, возможно, самым большим затратом является вычисление. Партнеры проекта OpenEurollm включают в себя центры суперкомпьютеров EuroHPC в Испании, Италии, Финляндии и Нидерландах — а более широкий проект EuroHPC имеет бюджет около 7 миллиардов евро.
Но огромное количество разрозненных участвующих сторон, охватывающих академические круги, исследования и корпорации, заставило многих задаться вопросом, достижимы ли его цели. Анастасия Стасенко, соучредитель компании LLM Pleias, спросила, может ли «обширные консорциумы из более чем 20 организаций» иметь такую же измеренную направленность на доморощенную частную фирму ИИ.
«Недавние успехи Европы в ИИ сияют через небольшие сфокусированные команды, такие как Mistral AI и Lighton — компании, которые действительно владеют тем, что они строят», — написал Стасенко. «Они несут немедленную ответственность за свой выбор, будь то в финансах, позиционировании рынка или репутации».
До царапины
Проект OpenEurollm либо начинается с нуля, либо у него есть старт — в зависимости от того, как вы на него смотрите.
С 2022 года Хаджич также координирует проект высокопроизводительных языков (HPLT), который намеревался разработать бесплатные и многократные наборы данных, модели и рабочие процессы с использованием высокопроизводительных вычислений (HPC). Этот проект должен закончиться в конце 2025 года, но, по словам Хаджича, его можно рассматривать как своего рода «предшественник», учитывая, что здесь также участвуют большинство партнеров по HPLT (кроме британских партнеров).
«Этот [OpenEuroLLM] На самом деле это просто более широкое участие, но больше сосредоточено на генеративных LLM », — сказал Хаджич. «Таким образом, он не начинается с нуля с точки зрения данных, опыта, инструментов и вычисления опыта. Мы собрали людей, которые знают, что они делают — мы должны быть в состоянии быстро встать на скорость ».
Хаджич сказал, что он ожидает, что первые версии (ы) будут выпущены к середине 2026 года, причем последняя итерация (ы) появится в результате вывода проекта в 2028 году. Но эти цели все еще могут показаться высокими, если учесть, что не так много Толк еще за пределами профиля Github с голой кости.
«В этом отношении мы начинаем с нуля — проект начался в субботу [February 1]- сказал Хаджич. «Но мы готовили проект в течение года [the tender process opened in February 2024].
Из академических кругов и исследований организации, охватывающие Чехию, Нидерланды, Германию, Швецию, Финляндию и Норвегию, являются частью когорты OpenEurollm, в дополнение к центрам EuroHPC. Из корпоративного мира в Финляндии, принадлежащей AI Lab Silo AI, а также Алеф Альфа (Германия), Элламинд (Германия), Инженерная инженерия Prompsit (Испания) и Лайон (Франция).
Одним из примечательных упущений из списка является состав французского AI Unicorn Mistral, который позиционировал себя в качестве альтернативы с открытым исходным кодом для таких должностных лиц, таких как Openai. В то время как никто из Мистрала не ответил на TechCrunch для комментариев, Хаджич подтвердил, что он пытался инициировать разговоры со стартапом, но безрезультатно.
«Я пытался подойти к ним, но это не привело к целенаправленной дискуссии об их участии», — сказал Хаджич.
Проект все еще может собрать новых участников в рамках программы ЕС, которая обеспечивает финансирование, хотя он будет ограничен организациями ЕС. Это означает, что организации из Великобритании и Швейцарии не смогут принять участие. Это противоречит программе исследований и разработок Horizon, которую Великобритания присоединилась к 2023 году после длительного тупика Brexit и которая обеспечила финансирование HPLT.
Наращивать
Цель проекта, согласно его слогана, состоит в том, чтобы создать: «Серия моделей фундамента для прозрачного искусственного интеллекта в Европе». Кроме того, эти модели должны сохранить «лингвистическое и культурное разнообразие» всех языков ЕС — текущего и будущего.
То, на что это переводится с точки зрения результатов, все еще исключено, но это, вероятно, будет означать основной многоязычный LLM, предназначенный для задач общего назначения, где точность имеет первостепенное значение. А затем также меньшие «квантовые» версии, возможно, для применений в крае, где эффективность и скорость более важны.
«Это то, о чем мы все еще должны составить подробный план», — сказал Хаджич. «Мы хотим, чтобы это было максимально маленьким, но максимально качественным. Мы не хотим выпускать что-то, что выпечено, потому что из европейской точки зрения это высокие ставки, с большим количеством денег от Европейской комиссии-государственные деньги ».
Хотя цель состоит в том, чтобы сделать модель максимально опытной на всех языках, достижение равенства по всем направлениям также может быть сложным.
«Это цель, но насколько успешным мы можем быть с языками с дефицитными цифровыми ресурсами, является вопрос», — сказал Хаджич. «Но именно поэтому мы хотим иметь истинные критерии для этих языков, и не подходить к критериям, которые, возможно, не являются репрезентативными для языков и культуры, стоящей за ними».
С точки зрения данных, именно здесь большая часть работы от проекта HPLT окажется плодотворной, а версия 2.0 его набора данных выпущена четыре месяца назад. Этот набор данных был обучен 4,5 петабайтами веб-ползаний и более 20 миллиардов документов, и Хаджич сказал, что они добавят дополнительные данные из Common Crawl (открытый репозиторий данных по полной поверхности) в микс.
Определение с открытым исходным кодом
В традиционном программном обеспечении многолетняя борьба между открытым исходным кодом и проприетарным вращением вокруг «истинного» значения «открытого исходного кода». Это может быть разрешено путем отложения на официальное «определение» в соответствии с инициативой с открытым исходным кодом, управляющими отраслью того, что является и не является законным лицензиями с открытым исходным кодом.
Совсем недавно OSI сформировала определение «ИИ с открытым исходным кодом», хотя не все довольны результатом. Сторонники ИИ с открытым исходным кодом утверждают, что модели должны быть не только свободно доступны, но и наборы данных, предварительные модели, веса — полный шебанг. Определение OSI не делает учебные данные обязательным, потому что в нем говорится, что модели искусственного интеллекта часто обучаются собственным данным или данным с ограничениями перераспределения.
Достаточно сказать, что OpenEurollm сталкивается с этими же затруднениями, и, несмотря на свои намерения быть «по -настоящему открытыми», ему, вероятно, придется поставить некоторые компромиссы, если это будет выполнять свои «качественные» обязательства.
«Цель состоит в том, чтобы все открылось. Теперь, конечно, есть некоторые ограничения », — сказал Хаджич. «Мы хотим иметь модели максимально высокого качества, и, основываясь на европейской директиве об авторском праве, мы можем использовать все, что мы можем получить в свои руки. Некоторые из них не могут быть перераспределены, но некоторые из них можно хранить для будущей проверки ».
Это означает, что проект OpenEurollm, возможно, должен держать некоторые учебные данные в разделе обертывания, но быть доступным для аудиторов по запросу-как требуется для систем ИИ высокого риска в соответствии с условиями Закона ЕС.
«Мы надеемся, что большинство данных [will be open]особенно данные, поступающие от общего ползания », — сказал Хаджич. «Мы хотели бы, чтобы все это было полностью открыто, но мы увидим. В любом случае, нам придется соблюдать правила ИИ ».
Два на один
Другая критика, которая возникла после формального открытия OpenEuurollm, заключалась в том, что в Европе был запущен очень похожий проект всего несколько коротких месяцев назад. Eurollm, которая запустила свою первую модель в сентябре и продолжение в декабре, финансируется ЕС вместе с консорциумом из девяти партнеров. К ним относятся академические учреждения, такие как Эдинбургский университет и такие корпорации, как Unbabel, которые в прошлом году выиграли миллионы часов обучения графических процессоров на суперкомпьютерах ЕС.
Eurollm разделяет аналогичные цели со своими почти намелькой: «Чтобы построить европейскую модель крупного языка с открытым исходным кодом, которая поддерживает 24 официальных европейских языков и несколько других стратегически важных языков».
Андре Мартинс, глава отдела исследований в Небабеле, отправился в социальные сети, чтобы подчеркнуть эти сходства, отметив, что OpenEurollm присваивает имя, которое уже существует. «Я надеюсь, что разные сообщества открыто сотрудничают, делятся своим опытом и не решают заново изобрести колесо каждый раз, когда новый проект финансируется», — написал Мартинс.
Хаджич назвал ситуацию «неудачной», добавив, что он надеялся, что они смогут сотрудничать, хотя он подчеркнул, что из-за источника его финансирования в ЕС OpenEuurollm ограничен с точки зрения его сотрудничества с организациями, не являющимися в ЕС, в том числе Великобритании университеты.
Разрыв в финансировании
Прибытие DeepSeek в Китае и соотношение стоимости к производительности, которое он обещает, дали некоторую поддержку, что инициативы искусственного интеллекта могут сделать гораздо больше с гораздо меньше, чем изначально. Однако за последние несколько недель многие подвергли сомнению истинные затраты, связанные с построением DeepSeek.
«Что касается DeepSeek, мы на самом деле очень мало знаем о том, что именно вступило в его создание»,-сказал TechCrunch, который занимается техническим соавтором в проекте OpenEurollm, который является техническим соавтором в проекте OpenEurollm.
Несмотря на это, Sarlin считает, что OpenEurollm будет иметь доступ к достаточным финансированию, поскольку в основном это охватывает людей. Действительно, вычисляется большая часть затрат на строительство систем искусственного интеллекта, и это следует в основном покрывать его партнерством с центрами EuroHPC.
«Вы могли бы сказать, что OpenEuurollm на самом деле имеет довольно значительный бюджет», — сказал Сарлин. «EuROHPC инвестировал миллиарды в ИИ и вычислил инфраструктуру и посвятил больше миллиардов в расширение этого в ближайшие несколько лет».
Стоит также отметить, что проект OpenEurollm не создается в отношении продукта потребительского или предприятия. Это исключительно о моделях, и именно поэтому Сарлин считает, что бюджет, который он имеет, должен быть достаточным.
«Цель здесь не в том, чтобы построить чат -бот или помощник искусственного интеллекта — это была бы инициатива по продукту, требующая больших усилий, и это то, что ЧАТГПТ сделал так хорошо», — сказал Сарлин. «Мы вносим свой вклад в фонд с открытым исходным кодом, которая функционирует как инфраструктура искусственного интеллекта для компаний в Европе. Мы знаем, что нужно для создания моделей, это не то, для чего вам нужно миллиарды ».
С 2017 года Сарлин возглавил AI Lab Silo AI, который запустил — в партнерстве с другими, включая проект HPLT — семейство открытых моделей Poro и Viking. Они уже поддерживают несколько европейских языков, но теперь компания готовит следующие итерационные модели «Европа», которые будут охватывать все европейские языки.
И это связано со всем понятием «не начинается с нуля», поддерживаемой Хаджичами — уже существует основание знаний и технологий.
Суверенное состояние
Как отмечали критики, у OpenEuurollm есть много движущихся частей, что, как признает Хаджич, хотя и с позитивным перспективами.
«Я участвовал во многих совместных проектах, и я считаю, что у него есть свои преимущества по сравнению с одной компанией», — сказал он. «Конечно, они сделали отличные дела, как Openai для Mistral, но я надеюсь, что сочетание академической экспертизы и внимания компаний может принести что -то новое».
И во многих отношениях дело не в том, чтобы пытаться пережить крупные технологии или стартапы искусственного интеллекта в миллиард долларов; Конечной целью является цифровой суверенитет: (в основном) открытый фонд LLMS, построенный и для Европы.
«Я надеюсь, что это не так, но если, в конце концов, мы не являемся моделью номер один, и у нас есть« хорошая »модель, у нас все равно будет модель со всеми компонентами, основанными в Европе, Хаджич сказал. «Это будет положительный результат».