Группа исследователей из Стэнфорда и Калифорнийского университета в Беркли решила проверить достоверность утверждений о снижении качества ответов ChatGPT и разработать метрики для количественной оценки масштабов этих изменений. 19 июля один из участников эксперимента, профессор компьютерных наук Калифорнийского университета Матей Захария поделился одним из результатов этой работы в Twitter. Он написал, что «уровень успеха GPT-4 в определении простых чисел с марта по июнь этого года упал с 97,6% до 2,4%». Правда, показатели GPT-3.5 за этот же период времени значительно выросли: с 7,4% до 86,8%.
По наблюдению Tom’s Hardware, в последние месяцы было достаточно много «анекдотических свидетельств и общего ропота», связанных со снижением качества ответов ChatGPT. Недавно опубликованная статья «Как меняется поведение ChatGPT со временем?», подписанная Матеем Захарией, Линцзяо Ченом и Джеймсом Цзоу подтверждает предположения если не о «деградации», то о росте количества ошибочных ответов у больших языковых моделей.
Исследовательская группа сформулировала запросы для измерения важных аспектов работы больших языковых моделей GPT-4 и GPT-3.5. Эти запросы разделили на четыре категории, охватывающие широкий спектр навыков ИИ, при этом относительно простые для оценки производительности:
решение математических задач,
этические вопросы,
генерация кода,
визуальное мышление.
Исследователи сравнили ответы GPT-4 и GPT-3.5 в марте и в июне 2023 года и обнаружили, что с течением времени они совершенно по-разному отвечали на одни и те же запросы. И это были значительные отличия для относительно короткого периода времени. Правда, до сих пор неясно, как эти языковые модели обновляются, и могут ли изменения, направленные на улучшение одних аспектов их работы, негативно повлиять на другие.
Запросы на генерацию кода показали падение успешных попыток: у GPT-4 с 52% в марте до 10% в июне; у GPT-3.5 с 22% до 2% за тот же отрезок времени.
Количество правильных ответов на этические вопросы у GPT-4 снизилось с 21% в марте до 5% в июне; а у GPT-3.5, наоборот, выросло с 2% до 8%.
С задачами на визуальное мышление обе версии большой языковой модели стали справляться немного лучше: количество правильных ответов GPT-4 выросло с 24,6% до 27,4%, GPT-3.5 — с 10,3% до 12,2%.
Обращает на себя внимание, что новейшая версия GPT-4 показала ухудшение работы в трёх категориях из четырёх. Как отмечают в Tom’s Hardware, кого-то может не беспокоить изменчивость в работе этих языковых моделей. Однако авторы исследования предупреждают: «Из-за популярности ChatGPT как GPT-4, так и GPT-3.5 получили широкое распространение среди отдельных пользователей и ряда предприятий». Поэтому не исключено, что некоторая информация, сгенерированная GPT, может повлиять на нашу жизнь.
Учёные уже заявили о своём намерении продолжить оценку версий GPT в рамках более длительного исследования.