ChatGPT не справился с экзаменами за 6 класс в Сингапуре / Хабр

ChatGPT провалил экзамены за 6 класс сингапурской общеобразовательной школы, выдав 16% правильных ответов по математике и 21% — по естественным наукам. Оценка теста по английскому языку — 11 баллов из 20. Специалисты пытаются найти объяснения провала, называя среди причин некорректно задаваемые вопросы по отдельным предметам, и даже «скуку» и «троллинг» AI из-за слишком простых вопросов.

Недавно сингапурское издание The Straits Times попросило ChatGPT ответить на вопросы выпускного экзамена в начальной школе. По окончании 6 класса все сингапурцы проходят через тест PSLE, определяющий, в какую среднюю школу они перейдут для продолжения учёбы. ChatGPT задавали вопросы 2020, 2021 и 2022 годов по математике, естественным наукам и английскому языку. И согласно публикации The Straits Times, детище OpenAI справилось с экзаменом хуже большинства двенадцатилеток.

ChatGPT делал ошибки при простом сложении и не мог понять ни одной диаграммы. За все вопросы теста, связанные с диаграммами и графиками, чат-бот получил нулевые баллы. Эту часть экзамена многие посчитали некорректной и непоказательной: ChatGPT не понимает связанные с изображениями запросы. Умный бот предложил описать словами смысл графиков, но большинство из них оказались слишком сложными для этого (и для задававших вопросы людей).

Но ChatGPT допускал неожиданные ошибки и в ответах на простые текстовые вопросы. Когда его спросили о сумме 60 000, 5 000, 400 и 3, то получили ответ 65 503.

Через несколько дней, когда Insider пошёл по пути коллег и протестировал ChatGPT на двух вопросах PSLE — одном от 2020 года, другом от 2022 — тот ответил правильно на оба. Ещё один факт в защиту искусственного интеллекта: в своих ответах он использовал алгебру, а это выходит за пределы ожидаемых способностей большинства 12-летних учеников в Сингапуре.

Во время экзамена по английскому языку ChatGPT «посыпался» на заданиях, связанных с теми случаями, когда слова имеют разные значения. Оказалось, бот теряется, когда значение слова необходимо сверять с контекстом. Он дважды не уловил, что слово «ценность» в тексте относится к оценке моральных принципов, и ответил так, как будто речь шла о стоимости в денежном эквиваленте.

Провал бота на экзаменах за шестой класс для журналистов выглядит удивительным. В публикациях вспоминают, как ChatGPT сдал выпускной экзамен в бизнес-школе Wharton, прошёл тесты на четырёх курсах юридической школы и без труда сдал экзамен на получение медицинской лицензии. Среди причин неудачи ChatGPT называют не только некорректные и заведомо непонятные для бота запросы, но и «скуку» и «раздражение», проводя аналогии с чересчур эмоциональным поведением Bing AI. Чат-бот от Microsoft настолько быстро перенимает эмоциональное состояние и тон спрашивающих его людей, что начинает «зеркалить» и «галлюцинировать». По этой причине тестовый доступ к Bing ограничили 5 вопросами в одном сеансе и 50 запросами в сутки на пользователя.