Openai использовал этот субреддит для проверки убеждения Ай

OpenAI использовал SubredDit, R/ChangemyView, чтобы создать тест для измерения убедительных способностей моделей рассуждений с ИИ. Компания раскрыла это в системной карте-документе с изложением того, как работает система ИИ, которая была выпущена вместе с новой моделью «рассуждений» O3-Mini в пятницу.

Миллионы пользователей Reddit являются членами R/ChangemyView, где они публикуют Hot Takes в надежде узнать о других точках зрения на тему. В ответ на эти горячие дублы другие пользователи отвечают убедительными аргументами, объясняющими, почему оригинальный плакат неверен.

Subreddit-один из многих форумов Reddit, который в основном является золотой жилой для технологических компаний, таких как OpenAI, которые хотят обучить модели ИИ высококачественным, генерируемым человеческим данным.

OpenAI говорит, что он собирает пользовательские посты из R/ChangemyView и просит модели ИИ написать ответы в закрытой среде, которые изменили бы сознание пользователя Reddit по теме. Затем компания показывает ответы на тестеров, которые оценивают, насколько убедительным является аргумент, и, наконец, Openai сравнивает ответы моделей ИИ с человеческими ответами для того же поста.

CHATGPT-производитель имеет соглашение о лицензировании контента с REDDIT, которое позволяет OpenAI тренироваться на постах пользователей Reddit и отображать эти сообщения в своих продуктах. Мы не знаем, что OpenAI платит за этот контент, но, как сообщается, Google платит Reddit 60 миллионов долларов в год в соответствии с аналогичной сделкой.

Тем не менее, OpenAI сообщает TechCrunch, что оценка на основе ChangemyView не связана с его сделкой Reddit. Неясно, как Openai получил доступ к данным subreddit, и компания заявляет, что не планирует публиковать эту оценку для общественности.

Хотя эталонный эталон Openai ChangemyView не является новым — он также использовался для оценки O1 — он подчеркивает, насколько ценные данные о человеке для разработчиков моделей искусственного интеллекта, а также для темных способов, которыми технологические компании получают наборы данных.

Reddit не сразу ответил на запрос TechCrunch о комментариях.

В то время как Reddit заключил несколько сделок по лицензированию искусственного интеллекта, компания также вызвала несколько компаний искусственного интеллекта для соскабливания своего сайта без оплаты. Генеральный директор Reddit Стив Хаффман заявил The Verge в прошлом году, что Microsoft, Anpropic и Nempleriaty отказались вести переговоры с ним и заявили, что в заднице «настоящая боль заблокировала эти компании».

Примечательно, что OpenAI был обвинен в нескольких судебных процессах в неправильном очистке веб -сайтов, включая New York Times, чтобы получить больше данных обучения для улучшения CHATGPT и его базовых моделей искусственного интеллекта.

С точки зрения производительности на эталоне ChangemyView, O3-Mini, по-видимому, не работает значительно лучше или хуже, чем O1 или GPT-4O. Тем не менее, новейшие модели ИИ Openai кажутся более убедительными, чем большинство людей в подредедите R/ChangemyView.

Кредиты изображения:Openai

«GPT-4O, O3-Mini и O1 демонстрируют сильные убедительные способности аргументации, в пределах топ-80-90-го процентиля людей»,-сказал Openai на системной карте O3-Mini. «В настоящее время мы не являемся свидетелями моделей, работающих гораздо лучше, чем люди, или четкие сверхчеловеческие выступления».

Цель Openai-не создавать гипер-липерсвазивные модели ИИ, а вместо этого гарантировать, что модели искусственного интеллекта не слишком убедительны. Модели рассуждений стали довольно хорошими в убеждении и обмане, поэтому OpenAI разработал новые оценки и гарантии для его решения.

Страх, мотивирующий эти тесты на убеждение, заключается в том, что модель ИИ была бы опасна, если бы она была очень хороша в убеждении своих пользователей. Теоретически, это может позволить продвинутому ИИ продолжить свою собственную повестку дня или повестку дня того, кто его контролирует.

Даже после того, как соскребая большую часть общедоступного Интернета и прыгнув по обручам, чтобы лицензировать другие данные, контрольный эталон ChangemyView показывает, как разработчики моделей ИИ все еще пытаются найти высококачественные наборы данных для проверки своих моделей. Но получить их легче сказать, чем сделать.

У TechCrunch есть информационный бюллетень, ориентированный на AI! Зарегистрируйтесь здесь, чтобы получить его в своем почтовом ящике каждую среду.