«Элиза» из 1960-х годов превзошла чат-бот GPT-3.5 в тесте Тьюринга

Исследователи из Калифорнийского университета в Сан-Диего выявили, что старичок-бот «Элиза» лучше убеждает людей в своем человеческом происхождении, чем новый чат-бот GPT-3.5. Об этом сообщает Naked Science со ссылкой на сайт электронного архива arXiv.

Алан Тьюринг создал этот тест в 1950 году, чтобы определить, может ли машина вести разговор, похожий на человеческий. Однако многие считают этот тест субъективным и не согласны насчет его успешной сдачи.

В их исследовании приняли участие 650 человек, которые вступали в беседы друг с другом или с GPT. Участники должны были определить, с кем они общаются: с человеком или чат-ботом. Исследователи обнаружили, что модели GPT-4 обманули участников в 41% случаев, тогда как модели GPT-3.5 обманули их только в 5%-14% процентах случаев. Людям удалось убедить участников, что они не машины, только в 63% испытаний.

Самый неожиданный результат дала «Элиза» — самая старая модель, созданная в 1966 году, она показала высокий уровень успешности — 27%, что существенно выше, чем у новых моделей GPT-4 и GPT-3.5.

Авторы статьи объяснили успех «Элизы» тремя факторами. Во-первых, ответы чат-бота были консервативными, что создавало впечатление «несговорчивого собеседника». Во-вторых, «Элиза» не проявляла качеств, привычных для современных языковых моделей, таких как вежливость и дружелюбие. И в-третьих, пользователи считали, что чат-бот «слишком плох, чтобы быть моделью искусственного интеллекта», подразумевая, что имели дело с человеком.

 

Обложка: © UFA