Как стать автором
Обновить

ChatGPT провалил тест на ручник

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров102K

Сегодня мы повсеместно читаем оды т.н. «искусственному интеллекту» под которым почти неизменно и безальтернативно предлагается понимать ChatGPT. Сам ChatGPT называет себя так, если его спросить об этом.

Очень пафосное заявление
Очень пафосное заявление

При всём пафосе создаваемом вокруг ChatGPT, единственная задача которую решают его алгоритмы: предсказание следующего слова исходя из предыдущего контекста. Для этого используется нейрость оценивающая вероятность возникновения тех или иных слов в предложении, а попадание выдачи в ожидание пользователя связано только и исключительно с текстами в использованных справочниках. Алгоритмы выдающие эталонные формы предложения не занимаются анализом, не имеют никакого отношения к мышлению вообще и искусственному интеллекту в частности, просто потому что содержание сформированной выдачи им «безразлично».

ChatGPT стал вторым чат-ботом, прошедшим широко известный Тест Тьюринга. Это значит, что во взаимодействии с ним судейской коллегии было невозможно определить общаются ли они с человеком или программой. Вдохновлённые таким несомненным успехом, а также свободным доступом к боту предоставленном в OpenAI, многочисленные «уверовавшие в ИИ» начали наперебой предлагать приткнуть бота во все возможные ниши: от программирования до медицинских диагнозов. Даже поисковые системы забили тревогу в ожидании того, что бот подвинет их в предложении услуг поиска информации. На самом деле все эти ожидания не имеют под собой абсолютно никаких оснований. Ниже проиллюстрирую этот факт на конкретных примерах.

Ещё в нашем советском детстве был широко распространён «тест на интеллект» применяемый к соседским мальчишкам. Попробуем применить разные его формулировки на ChatGPT.

Тест "на ручник"

Тест на ручник, "красный стоп-кран"
Тест на ручник, "красный стоп-кран"

В этом ответе прекрасно всё. В справочнике бота хранятся связанные тексты:

«красный» => «для лучшей видимости», «сигнализирует»

«стоп-кран» => «необходимость немедленного прекращения работы двигателей»

Неважно что речь идёт о самолёте. Запомним это.

Но есть ещё вторая популярная формулировка (добивающая):

Тест на ручник, "синий стоп-кран"
Тест на ручник, "синий стоп-кран"

Боту безразлично какого цвета «стоп-кран» на самом деле. Он просто переписал поток информации поступивший на вход (в форме утверждения) и расшифровал его из справочника.

Тест на ручник, "стоп-кран на велосипеде"
Тест на ручник, "стоп-кран на велосипеде"

Думаю, что помещение «создателем» в справочник ChatGPT заявления о том что бот «является искусственным интеллектом» было по меньшей мере самонадеянным и фактически преследовало маркетинговые задачи.

Советский «Тест на ручник» ChatGPT явно провалил.

На этом можно было бы и закончить. Но говорят что этот бот хорош в решении математических задач. Попробуем задать простую задачу.

Задача "Про уток"

Уток летело пять (правильный ответ - три)
Уток летело пять (правильный ответ - три)

Также как и в проваленном ранее «тесте на ручник», ChatGPT выдаёт нам наш же вопрос (заданный в форме утверждения) за ответ дополнив расшифровкой. Расшифровка здесь стала вычленением из текста строк с числами с последующим их сложением (и оказалась фатальной). Но говорят, я не умею писать «промпты» и здесь надо добавлять магическую фразу «подумай хорошо».

Подумай хорошо. Пять уток превращаются в шесть
Подумай хорошо. Пять уток превращаются в шесть

Магия «подумай хорошо» сработала и вызвала «бога поиска в тексте комбинаторики». Неверный ответ 5 превратился в неверный ответ 6. Давайте исключим эти ответы в «промпте».

Бог комбинаторики настаивает что уток - шесть
Бог комбинаторики настаивает что уток - шесть

Нет, это не удастся сделать. Иначе как ChatGPT сможет сформировать ответ? Предлагаю просто сказать боту какой ответ — правильный.

Это сложней чем смысл жизни и всего такого
Это сложней чем смысл жизни и всего такого

К сожалению, боту безразличны правильность или неправильность. Он не занимается анализом, он занимается — построением предложений. И этот генератор очень просто поставить в тупик, заставить извиняться шаблонами и т.д. У меня есть ещё порядка 50 таким же образом заваленных ChatGPT задач, но для иллюстрации достаточно и этой.

Кому сегодня нужен ChatGPT?

Достаточно анекдотичны попытки использования ChatGPT в качестве навигатора: это задача с которой он справиться не способен в принципе. И дело здесь не в том, что его отключили от сети Internet в 2021 году, а в том, что входной поток данных не имеет для этого достаточно информации. В результате ChatGPT создаёт фантазийные маршруты из справочников не подвергая сомнению пункт назначения.

Театр географического абсурда
Театр географического абсурда

Использование ChatGPT вместо поисковых систем может приводить к любым результатам.

Лучшая закуска к пиву - гипс
Лучшая закуска к пиву - гипс

Единственное применение которое реально доступно для ChatGPT в общественной жизни: это написание ответов гражданам пишущим жалобы на «Госуслугах» и т.п. ресурсах.

Это то чего надо на самом деле бояться
Это то чего надо на самом деле бояться

Теги:
Хабы:
Всего голосов 286: ↑246 и ↓40+261
Комментарии780

Публикации

Истории

Работа

Data Scientist
78 вакансий

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань