Chatgpt только что сдал тест Тьюринга, но это не означает, что ИИ теперь такой же умный, как люди

Кредит: сгенерированный AI изображение

За прошедшую неделю было несколько заголовков о том, что за чат -бот AI официально прошел тест Тьюринга.

Эти новостные сообщения основаны на недавнем предварительном исследовании двух исследователей из Калифорнийского университета Сан -Диего, в котором были проведены четыре крупные языковые модели (LLM). Одна модель-GPT-4.5 Openai-была сочтена неразличимой от человека более 70% случаев.

Тест Тьюринга был популяризирован как конечный индикатор машинного интеллекта. Тем не менее, существуют разногласия по поводу обоснованности этого теста. На самом деле, у него есть спорная история, которая ставит под сомнение, насколько она эффективна на самом деле при измерении машинного интеллекта.

Так что это значит для значения этого нового исследования?

Что нашел исследование?

Предварительное исследование ученых-когнитивных ученых Кэмерона Джонса и Бенджамина Бергена было опубликовано в марте, но еще не было рассмотрено. Он проверил 4 LLMS: Eliza, GPT-4O, Llama-3.1-405b и GPT-4.5.

Тесты состояли из участников, завершивших восемь раундов разговоров, в которых они действовали как следователь, обменяющийся текстовыми сообщениями с двумя свидетелями одновременно. Одним из свидетелей был человек, а другой — LLM. Около 284 участников были случайным образом назначены как следователь или свидетель.

Участники должны были одновременно взаимодействовать с обоими свидетелями в течение пяти минут, а тестовый интерфейс имитирует интерфейс обычного интерфейса обмена сообщениями. После этого взаимодействия они решили, какой свидетель был человеком, а какой — чат -бот ИИ.

Участники считали, что GPT-4.5 является человеком в 73% случаев, а Llama-3,1-405b-это человек в 56% случаев. Две другие модели (Элиза и GPT-4O) только одурачили участников 23% и 21% случаев соответственно.

Что такое тест Тьюринга?

Первая итерация теста Тьюринга была представлена английским математиком и компьютерным ученым Алантом Аланом Тьюрингом в статье 1948 года под названием «Интеллектуальное оборудование». Первоначально он был предложен в качестве эксперимента с участием трех человек, играющих в шахматы с теоретической машиной, называемой бумажной машиной, два игрока и один из них являются оператором.

В публикации 1950 года «Компьютерная техника и интеллект», вновь вновь представил эксперимент как «имитационную игру» и утверждал, что это было средством определения способности машины демонстрировать интеллектуальное поведение, эквивалентное человеку. В нем участвовали три участника: участник А была женщиной, участником B и участником C любой пол.

Благодаря ряду вопросов, участник C требуется, чтобы определить, является ли «x a и y I is b» или «x Is b и y — это x и y, представляющие два половых.

Затем поднимается предложение: «Что произойдет, когда машина займет роль в этой игре? Будет ли допросщик ошибочно так же часто, когда игра играет так, как он это делает, когда игра играется между мужчиной и женщиной?»

Эти вопросы были предназначены для замены неоднозначного вопроса: «Могут ли машины думать?». Тьюринг утверждал, что этот вопрос был неоднозначным, потому что он требовал понимания терминов «машина» и «думать», из которых «нормальное» использование слов сделает ответ на вопрос неадекватным.

За прошедшие годы этот эксперимент был популяризирован как тест Тьюринга. В то время как субъект варьировался, тест оставался обсуждением о том, является ли «x a и y I is b» или «x Is b, а y — A.»

Почему это спорно?

Несмотря на популяризованную как средство тестирования машинного интеллекта, тест Тьюринга не является единогласно принят как точное средство для этого. На самом деле, тест часто оспаривается.

Есть четыре основных возражения против теста Тьюринга:

Поведение против мышления. Некоторые исследователи утверждают, что способность «пройти» тест — это вопрос поведения, а не интеллекта. Поэтому было бы не противоречиво сказать, что машина может пройти имитационную игру, но не может думать.

Мозги не машины. Тьюринг делает утверждения, что мозг — это машина, утверждая, что его можно объяснить чисто механическими терминами. Многие ученые опровергают это утверждение и ставят под сомнение обоснованность теста на этой основе.

Внутренние операции. Поскольку компьютеры не являются людьми, их процесс для достижения вывода может быть не сопоставим с человеком, что делает тест неадекватным, поскольку прямое сравнение не может работать.

Объем теста. Некоторые исследователи считают, что тестирование только одного поведения недостаточно для определения интеллекта.

Так является ли LLM таким же умным, как человек?

В то время как статья препринта утверждает, что GPT-4.5 сдал тест на Тьюринга, в ней также говорится: «Тест Тьюринга является мерой замещаемости: может ли система стоять для реального человека без человека без […] Замечая разницу «.

Это подразумевает, что исследователи не поддерживают идею о том, что тест Тьюринга является законным признаком человеческого интеллекта. Скорее, это указывает на имитацию человеческого интеллекта — оду для происхождения теста.

Стоит также отметить, что условия исследования не были без проблем. Например, пятиминутное окно тестирования относительно короткое.

Кроме того, каждому из LLM было предложено принять конкретную личность, но неясно, что были в тесте.

На данный момент можно с уверенностью сказать, что GPT-4.5 не такой умный, как люди, хотя это может сделать разумную работу по убеждению некоторых людей в противном случае.

Больше информации:
Кэмерон Р. Джонс и др. arxiv (2025). Doi: 10.48550/arxiv.2503.23674

Обеспечивается разговором

Эта статья переиздана из разговора по лицензии Creative Commons. Прочитайте оригинальную статью.

Цитирование: CHATGPT только что прошел тест Тьюринга, но это не означает, что ИИ сейчас так же умный, как люди (2025, 9 апреля), извлеченные 9 апреля 2025 года из этого документа, подлежит авторским правам. Помимо каких -либо справедливых сделок с целью частного исследования или исследования, никакая часть не может быть воспроизведена без письменного разрешения. Контент предоставляется только для информационных целей.

Разработка сайтов в Гомеле

Добавить комментарий Отменить ответ

Похожие записи

Ученые обнаруживают новый способ превратить кукурузные отходы в недорогой сахар для биотоплива

ИИ инструмент преобразует изображения беспилотников в мгновенные карты зоны бедствия для респондентов

Фотонным вычислениям требуется больше нелинейности: акустика может помочь

Мембрана без ПФАС с наноскопическими пробками обеспечивает более чистое и дешевое производство водорода.

Платформа Text2Robot использует генеративное ИИ для проектирования и доставки функциональных роботов только несколькими произнесенными словами

Новые миниатюрные лаборатории гарантируют, что ИИ не совершает ошибок

Ядерные отходы могут быть источником топлива в будущих реакторах

Сверхпроводящая схема может однажды заменить полупроводниковые компоненты в квантовых вычислительных системах

Светодиодная система на базе искусственного интеллекта обеспечивает стабильное беспроводное питание для внутренних устройств Интернета вещей.

Искусственный нерв с экологически чистым дизайном транзистора показывает перспективу для интерфейсов мозговых машин

Высокопроизводительные сплавы: как хаос вступает в слоистые карбиды по мере увеличения разнообразия металлов

Вам тоже может быть интересно:

Google Back Toonsutra, чтобы вырастить свою платформу WebToons в Индии

US May Fine TSMC 1 млрд. Долл. США по сравнению с Chip, предположительно использованным в процессоре Huawei AI

CHATGPT: Все, что вам нужно знать о чат-боте с AI,

Радиологический поставщик программного обеспечения AI Gleamer расширяется в МРТ с двумя небольшими приобретениями

Openai называет DeepSeek «контролируемым государством», требуя запретов на «PRC-производители» модели

Как посмотреть NVIDIA GTC 2025, включая основной доклад генерального директора Дженсена Хуанга

Openai открывает GPT-4.5 ‘Orion, «его крупнейшая модель ИИ, пока

Взлетно-посадочная полоса, наиболее известная своими моделями ИИ, приносит 308 миллионов долларов США.

Объятие лица покупает гуманоидную робототехнику стартап

10 стартапов, которые можно посмотреть с демо -демо -демо -демократического обеспечения Y Combinator

Элон Маск говорит, что X не работает из -за кибератак

Трэвис Каланик думает, что Убер облажался: «Хотел бы, чтобы у нас был автономный продукт по обмене езды» »