Тесты когнитивной психологии показывают, что ИИ иррациональны, но не так, как люди.

чатgpt — Кредит: Pixabay/CC0 Public Domain

Большие языковые модели, лежащие в основе популярных платформ генеративного искусственного интеллекта, таких как ChatGPT, давали разные ответы, когда их просили ответить на один и тот же тест на рассуждение, и не улучшались при предоставлении дополнительного контекста, говорится в новом исследовании, проведенном исследователями из Университетского колледжа Лондона.

Исследование, опубликованное в Королевское общество открытой науки, протестировали самые продвинутые модели большого языка (LLM), используя тесты когнитивной психологии, чтобы оценить их способность к рассуждению. Результаты подчеркивают важность понимания того, как «думают» эти ИИ, прежде чем поручать им задачи, особенно те, которые связаны с принятием решений.

В последние годы программы LLM, обеспечивающие работу генерирующих приложений искусственного интеллекта, таких как ChatGPT, становятся все более сложными. Их способность создавать реалистичный текст, изображения, аудио и видео вызвала обеспокоенность по поводу их способности красть рабочие места, влиять на выборы и совершать преступления.

Тем не менее, было также показано, что эти ИИ регулярно фабрикуют информацию, реагируют непоследовательно и даже ошибаются в простых математических вычислениях.

В этом исследовании исследователи из UCL систематически анализировали, способны ли семь студентов-магистрантов к рациональному мышлению. Общее определение рационального агента (человека или искусственного), принятое авторами, заключается в том, руководствуется ли он правилами логики и вероятности. Иррациональный агент — это тот, кто рассуждает не в соответствии с этими правилами.

Студентам магистратуры был предоставлен набор из 12 распространенных тестов когнитивной психологии для оценки рассуждений, включая задачу Уэйсона, проблему Линды и проблему Монти Холла. Способность человека решать эти задачи низка; В недавних исследованиях только 14% участников правильно решили задачу Линды и 16% правильно ответили на задачу Уэйсона.

Модели продемонстрировали иррациональность во многих своих ответах, например, давали разные ответы, когда один и тот же вопрос задавали 10 раз. Они были склонны совершать простые ошибки, в том числе основные ошибки сложения и принимать согласные за гласные, что приводило к неверным ответам.

Например, правильные ответы на задачу Wason варьировались от 90% для GPT-4 до 0% для GPT-3.5 и Google Bard. Лама 2 70b, ответившая правильно в 10% случаев, приняла букву К за гласную и ответила неправильно.

Хотя большинство людей также не смогли бы правильно ответить на задачу Уэйсона, маловероятно, что это произошло бы потому, что они не знали, что такое гласная.

Оливия Макмиллан-Скотт, первый автор исследования из UCL Computer Science, сказала: «Основываясь на результатах нашего исследования и других исследований больших языковых моделей, можно с уверенностью сказать, что эти модели пока не «думают» как люди. сказал, что модель с самым большим набором данных, GPT-4, показала себя намного лучше, чем другие модели, что позволяет предположить, что они быстро улучшаются. Однако трудно сказать, чем обусловлена эта конкретная модель, поскольку я подозреваю, что это закрытая система. используются и другие инструменты, которых вы не нашли бы в его предшественнике GPT-3.5».

Некоторые модели отказались отвечать на задания по этическим соображениям, хотя вопросы были невинными. Вероятно, это результат защиты параметров, которые не работают должным образом.

Исследователи также предоставили дополнительный контекст для заданий, который, как было показано, улучшает реакцию людей. Однако протестированные LLM не показали какого-либо устойчивого улучшения.

Профессор Мирко Мусолеси, старший автор исследования из UCL Computer Science, сказал: «Я бы сказал, что возможности этих моделей чрезвычайно удивительны, особенно для людей, которые десятилетиями работают с компьютерами.

«Интересно то, что мы на самом деле не понимаем возникающее поведение больших языковых моделей, а также то, почему и как они дают правильные или неправильные ответы. Сейчас у нас есть методы для тонкой настройки этих моделей, но тогда возникает вопрос: если мы попытаемся решаем эти проблемы, обучая модели, навязываем ли мы и свои собственные недостатки. Что интересно, эти LLM заставляют нас задуматься о том, как мы рассуждаем, о наших собственных предубеждениях, а также о том, хотим ли мы полностью рациональных машин? мы делаем, или мы хотим, чтобы они были идеальными?»

Тестировались модели GPT-4, GPT-3.5, Google Bard, Claude 2, Llama 2 7b, Llama 2 13b и Llama 2 70b.

Больше информации:
Оливия Макмиллан-Скотт и Мирко Мусолези. (Ир)рациональность и когнитивные искажения в больших языковых моделях, Королевское общество открытой науки (2024). DOI: 10.1098/rsos.240255. royalsocietypublishing.org/doi/10.1098/rsos.240255

Предоставлено Университетским колледжем Лондона

Цитирование: Тесты когнитивной психологии показывают, что ИИ иррациональны, но не так, как люди (4 июня 2024 г.), получено 5 июня 2024 г. с https://techxplore.com/news/2024-06-cognitive-psychology-ais-irrational. -humans.html

Этот документ защищен авторским правом. За исключением любых добросовестных сделок в целях частного изучения или исследования, никакая часть не может быть воспроизведена без письменного разрешения. Содержимое предоставлено исключительно в информационных целях.

Поделиться в соцсетях

Читайте также