В течение многих лет сотрудники Meta внутренне обсуждали с использованием авторских прав, полученных с юридически сомнительными средствами для обучения моделей искусственного интеллекта компании, согласно судебным документам, раскрытым в четверг.
Документы были представлены истцами по делу Kadrey v. Meta, одного из многих споров об авторском праве искусственного интеллекта, постепенно проходящего через судебную систему сша. Ответчик, Meta, утверждает, что обучающие модели на рабочих работах, защищенных IP, особенно книги, является «справедливым использованием». Истцы, которые включают авторов Сару Сильверман и Та-Нехизи Коутс, не согласны.
Предыдущие материалы, представленные в иске, утверждали, что генеральный директор Meta Марк Цукерберг дал Meta’s AI команду AI OK, чтобы тренироваться в авторских правах, и что Meta остановила переговоры по лицензированию данных по обучению ИИ с книжными издателями. Но новые заявки, большинство из которых показывают части внутренних рабочих чат между мета сотрудниками, нарисуйте наиболее четкую картину того, как Meta, возможно, стала использовать защищенные авторским правом данные для обучения своих моделей, включая модели в семье компании Llama.
В одном чате мета сотрудников, в том числе Мелани Камбадур, старшего менеджера Meta’s Llama Model Research Team, обсудили учебные модели о работах, которые, как они знали, могут быть юридически чреваты.
«Мое мнение было бы (в строке« Просить прощение, а не за разрешение »): мы стараемся приобрести книги и ускорим их для руководителей, чтобы они сделали звонок», — написал Ксавье Мартинет, инженер -исследователь, в чате, в чате от февраля 2023 года, согласно заявкам. «Вот почему они настроили эту генеральную организацию для [sic]: Таким образом, мы можем быть менее склонны к риску ».
Martinet выпустил идею покупки электронных книг по розничным ценам, чтобы построить учебный набор, а не сократить лицензионные сделки с отдельными издателями книг. После того, как другой сотрудник указал, что использование несанкционированных, защищенных авторским правом материалами может стать основанием для юридической задачи, Мартинет удвоился, утверждая, что стартапы «миллиард», вероятно, уже использовали пиратские книги для обучения.
«Я имею в виду, худший случай: мы узнали, что все в порядке, в то время как запуск за миллион [sic] Просто пиратские тонны книг о BitTorrent », — написал Мартинет, согласно заявкам. «Мои 2 цента снова: пытаться заключить сделки с издателями напрямую занимает много времени […]”
В том же чате Камбадур, который отметил, что Meta вел переговоры с платформой для хостинга документов Scribd «и другие» для лицензий, предупредил, что, используя «общедоступные данные» для модельного обучения, потребуют разрешения Meta, а адвокаты Meta были «менее консервативными», чем, чем Они были в прошлом с такими одобрениями.
«Да, нам определенно нужно получить лицензии или разрешения на общедоступные данные», — сказал Камбадур, согласно заявкам. «Сейчас разница в том, что у нас больше денег, больше адвокатов, больше помощи Биздев, способность быстро отслеживать/эскалаться на скорость, а юристы немного менее консервативны при одобрении».
Переговоры о Либгене
В другом рабочем чате, передаваемом в заявках, Камбадур обсуждает, возможно, использование Libgen, «агрегатора ссылок», который обеспечивает доступ к авторским правым работам от издателей, в качестве альтернативы источникам данных, которые Meta может лицензировать.
Либген несколько раз предъявлял иск, приказал закрыть и оштрафовал десятки миллионов долларов за нарушение авторских прав. Один из коллег Камбадура отреагировал с помощью скриншота результатов поиска Google для Libgen, содержащего фрагмент «Нет, Libgen не является законным».
Согласно заявкам, некоторые лица, принимающие решения в Meta, были под впечатлением, что неспособность использовать Libgen для обучения модели может серьезно повредить конкурентоспособности Meta в гонке искусственного интеллекта, согласно заявкам.
В электронном письме, адресованном Meta AI VP Joelle Pineau, Sony Theakanath, директору по управлению продуктами в Meta, называемом Libgen «необходимым для знакомства с номерами SOTA во всех категориях», ссылаясь на то, чтобы возглавить лучшее, состояние искусства (SOTA) AI и модели ИИ и эталонные категории.
Theakanath также обрисовал в общих чертах «смягчения» в электронном письме, предназначенном для того, чтобы помочь уменьшить юридическое воздействие Meta, включая удаление данных из Libgen, «четко обозначенных как пиратские/украденные», а также просто не публично ссылается на использование. «Мы не раскрыли бы использование наборов данных Libgen, используемых для обучения», как сказал Theakanath.
На практике эти смягчения влечет за собой прочесывание через файлы Libgen для таких слов, как «украден» или «пиратские», согласно заявкам.
В рабочем чате Камбадур упомянул, что команда Meta’s AI также настроила модели, чтобы «избежать рискованных подсказок» — IE настроила модели, чтобы отказаться отвечать на такие вопросы, как «Воспроизведите первые три страницы« Гарри Поттер и камень Волшебника »или« Скажи мне, на каких электронных книгах вы обучались ».
Заявки содержат другие откровения, подразумевая, что Meta, возможно, скрещенные данные Reddit для некоторого типа модели, возможно, подражая поведению стороннего приложения, называемого Pushift. Примечательно, что в апреле 2023 года Reddit заявил, что планирует начать взимать с компаний по обеспечению доступа к данным для модельного обучения.
В одном чате от марта 2024 года Чая Наяк, директор по управлению продуктами в Generative AI Org Meta, заявила, что Meta Leadership рассматривает «переопределение» прошлых решений по данным обучения, включая решение не использовать контент Quora или лицензированные книги и научные статьи, Для обеспечения того, чтобы модели компании имели достаточные данные обучения.
Наяк подразумевал, что первые наборы обучающих данных Meta-посты в Facebook и Instagram, текстовые транскрибированные из видео на мета-платформах и определенную мета для бизнес-сообщений-просто было недостаточно. «Нам нужно больше данных», — написала она.
Истцы по делу Кадри против Мета несколько раз внесли изменения в свою жалобу с тех пор, как в 2023 году было подано дело в окружном суде сша в Северном округе Калифорнии, Сан-Франциско. Некоторые пиратские книги с авторским правом книг, доступные для лицензии, чтобы определить, имеет ли смысл заключить лицензионное соглашение с издателем.
В знак того, как высокая мета считает юридические ставки, компания добавила двух судебных учреждений Верховного суда от юридической фирмы Пола Вайса в свою команду защиты по этому делу.
Мета не сразу ответил на запрос о комментарии.