Кредит: сгенерированный AI изображение
За прошедшую неделю было несколько заголовков о том, что за чат -бот AI официально прошел тест Тьюринга.
Эти новостные сообщения основаны на недавнем предварительном исследовании двух исследователей из Калифорнийского университета Сан -Диего, в котором были проведены четыре крупные языковые модели (LLM). Одна модель-GPT-4.5 Openai-была сочтена неразличимой от человека более 70% случаев.
Тест Тьюринга был популяризирован как конечный индикатор машинного интеллекта. Тем не менее, существуют разногласия по поводу обоснованности этого теста. На самом деле, у него есть спорная история, которая ставит под сомнение, насколько она эффективна на самом деле при измерении машинного интеллекта.
Так что это значит для значения этого нового исследования?
Что нашел исследование?
Предварительное исследование ученых-когнитивных ученых Кэмерона Джонса и Бенджамина Бергена было опубликовано в марте, но еще не было рассмотрено. Он проверил 4 LLMS: Eliza, GPT-4O, Llama-3.1-405b и GPT-4.5.
Тесты состояли из участников, завершивших восемь раундов разговоров, в которых они действовали как следователь, обменяющийся текстовыми сообщениями с двумя свидетелями одновременно. Одним из свидетелей был человек, а другой — LLM. Около 284 участников были случайным образом назначены как следователь или свидетель.
Участники должны были одновременно взаимодействовать с обоими свидетелями в течение пяти минут, а тестовый интерфейс имитирует интерфейс обычного интерфейса обмена сообщениями. После этого взаимодействия они решили, какой свидетель был человеком, а какой — чат -бот ИИ.
Участники считали, что GPT-4.5 является человеком в 73% случаев, а Llama-3,1-405b-это человек в 56% случаев. Две другие модели (Элиза и GPT-4O) только одурачили участников 23% и 21% случаев соответственно.
Что такое тест Тьюринга?
Первая итерация теста Тьюринга была представлена английским математиком и компьютерным ученым Алантом Аланом Тьюрингом в статье 1948 года под названием «Интеллектуальное оборудование». Первоначально он был предложен в качестве эксперимента с участием трех человек, играющих в шахматы с теоретической машиной, называемой бумажной машиной, два игрока и один из них являются оператором.
В публикации 1950 года «Компьютерная техника и интеллект», вновь вновь представил эксперимент как «имитационную игру» и утверждал, что это было средством определения способности машины демонстрировать интеллектуальное поведение, эквивалентное человеку. В нем участвовали три участника: участник А была женщиной, участником B и участником C любой пол.
Благодаря ряду вопросов, участник C требуется, чтобы определить, является ли «x a и y I is b» или «x Is b и y — это x и y, представляющие два половых.
Затем поднимается предложение: «Что произойдет, когда машина займет роль в этой игре? Будет ли допросщик ошибочно так же часто, когда игра играет так, как он это делает, когда игра играется между мужчиной и женщиной?»
Эти вопросы были предназначены для замены неоднозначного вопроса: «Могут ли машины думать?». Тьюринг утверждал, что этот вопрос был неоднозначным, потому что он требовал понимания терминов «машина» и «думать», из которых «нормальное» использование слов сделает ответ на вопрос неадекватным.
За прошедшие годы этот эксперимент был популяризирован как тест Тьюринга. В то время как субъект варьировался, тест оставался обсуждением о том, является ли «x a и y I is b» или «x Is b, а y — A.»
Почему это спорно?
Несмотря на популяризованную как средство тестирования машинного интеллекта, тест Тьюринга не является единогласно принят как точное средство для этого. На самом деле, тест часто оспаривается.
Есть четыре основных возражения против теста Тьюринга:
Так является ли LLM таким же умным, как человек?
В то время как статья препринта утверждает, что GPT-4.5 сдал тест на Тьюринга, в ней также говорится: «Тест Тьюринга является мерой замещаемости: может ли система стоять для реального человека без человека без […] Замечая разницу «.
Это подразумевает, что исследователи не поддерживают идею о том, что тест Тьюринга является законным признаком человеческого интеллекта. Скорее, это указывает на имитацию человеческого интеллекта — оду для происхождения теста.
Стоит также отметить, что условия исследования не были без проблем. Например, пятиминутное окно тестирования относительно короткое.
Кроме того, каждому из LLM было предложено принять конкретную личность, но неясно, что были в тесте.
На данный момент можно с уверенностью сказать, что GPT-4.5 не такой умный, как люди, хотя это может сделать разумную работу по убеждению некоторых людей в противном случае.
Больше информации:
Кэмерон Р. Джонс и др. arxiv (2025). Doi: 10.48550/arxiv.2503.23674
Обеспечивается разговором
Эта статья переиздана из разговора по лицензии Creative Commons. Прочитайте оригинальную статью.
Цитирование: CHATGPT только что прошел тест Тьюринга, но это не означает, что ИИ сейчас так же умный, как люди (2025, 9 апреля), извлеченные 9 апреля 2025 года из этого документа, подлежит авторским правам. Помимо каких -либо справедливых сделок с целью частного исследования или исследования, никакая часть не может быть воспроизведена без письменного разрешения. Контент предоставляется только для информационных целей.