Microsoft изучает способ кредитовать вкладчики в данные обучения искусственного интеллекта

Microsoft запускает исследовательский проект для оценки влияния конкретных примеров обучения на текст, изображения и другие типы носителей, которые создают генеративные модели искусственного интеллекта.

Это в соответствии с списком работы, начиная с декабря, который недавно был рециркулирован на LinkedIn.

Согласно списку, который ищет стажера для исследования, проект попытается продемонстрировать, что модели могут быть обучены таким образом, чтобы влияние конкретных данных — например, фотографий и книг — на их результаты могут быть «эффективно и полезными оценками».

«Текущие архитектуры нейронной сети непрозрачны с точки зрения предоставления источников для своих поколений, и есть […] веские причины изменить это », — говорится в списке.»[One is,] Стимулы, признание и потенциально платят за людей, которые вносят определенные ценные данные непредвиденным видам моделей, которые мы захотим в будущем, если предположить, что будущее удивит нас в основном ».

Текст, код, код, изображение, видео, видео и песни находятся в центре ряда судебных процессов в отношении ИИ. Часто эти компании обучают свои модели на огромных данных с публичных веб -сайтов, некоторые из которых защищены авторским правом. Многие из компаний утверждают, что доктрина справедливого использования защищает их методы сбора данных и обучения. Но креативщики — от художников до программистов до авторов — в значительной степени не согласны.

Сама Microsoft сталкивается как минимум две юридические проблемы со стороны владельцев авторских прав.

The New York Times подала в суд на технического гиганта, и его когда -то сотрудничатель, Openai, в декабре, обвинив две компании в нарушении авторских прав Times, развертывая модели, обученные миллионам своих статей. Несколько разработчиков программного обеспечения также подали иск против Microsoft, утверждая, что помощник по кодирующему AI Github компании Github был незаконно обучен, используя их защищенные работы.

Новая исследовательская работа Microsoft, которые в списке описывают как «происхождение времени обучения», по сообщениям, участвует Jaron Lanier, опытного технолога и междисциплинарного ученых в Microsoft Research. В апреле 2023 года в Нью-Йорке Ланье писал о концепции «достоинства данных», которая для него означала соединение «цифровых материалов» с «людьми, которые хотят быть известными за то, что они сделали».

«Подход к развороту данных проследил бы самых уникальных и влиятельных участников, когда большая модель обеспечивает ценный вывод»,-написал Ланье. «Например, если вы спросите модель для« анимированного фильма моих детей в мире рисования нефти о приключениях », то некоторые ключевые масляные художники, кошки-портретисты, голосовые актеры и писатели-или их поместья-могли бы быть рассчитаны на то, что они были уникально необходимы для творения нового шедевра. Они будут признаны и мотивированы.

Есть, нет ничего, уже несколько компаний, пытающихся это сделать. Разработчик модели искусственного интеллекта Бриа, который недавно привлекла 40 миллионов долларов венчурного капитала, утверждает, что «программно» компенсирует владельцам данных в соответствии с их «общим влиянием». Adobe и Shutterstock также присуждают регулярные выплаты участникам наборов данных, хотя точные суммы выплат, как правило, непрозрачны.

Немногие крупные лаборатории создали индивидуальные программы выплат, выплачиваемые за пределы лицензионных соглашений с издателями, платформами и брокерами данных. Вместо этого они предоставили средства защиты авторских прав «отказаться от обучения». Но некоторые из этих процессов отказа обременения и применимы только к будущим моделям-не ранее обученным.

Конечно, проект Microsoft может составлять чуть больше, чем доказательство концепции. Для этого есть прецедент. В мае Openai заявила, что разработала аналогичную технологию, которая позволила бы создателям указать, как они хотят, чтобы их работы были включены — или исключены из данных обучения. Но почти год спустя инструмент еще не увидел свет, и его часто не рассматривались как приоритет внутри.

Microsoft также может пытаться «промыть этику» здесь — или отправлять регулирующие и/или судебные решения, разрушительные для своего бизнеса ИИ.

Но то, что компания исследует способы отслеживания данных обучения, примечательно в свете недавно выраженных позиций других лабораторий искусственного интеллекта в отношении справедливого использования. Некоторые из ведущих лабораторий, включая Google и Openai, опубликовали политические документы, рекомендующие администрацию Трампа ослабить защиту авторского права, поскольку они связаны с развитием ИИ. OpenAI явно призвал правительство сша кодифицировать справедливое использование для модельного обучения, которое, по его мнению, освободит разработчиков от обременительных ограничений.

Microsoft не сразу ответила на запрос на комментарий.