ChatGPT не делает нас глупее / Habr

Увидел десяток постов, где люди всерьёз утверждают, что ChatGPT якобы делает нас глупее. Мне сразу показалось, что это чушь (спойлер: так оно и есть).

К авторам оригинального исследования Your Brain on ChatGPT у меня мало претензий. Они честно обозначили все ограничения своего исследования. Более того, в разделе FAQ прямо ответили на ключевой вопрос:

Безопасно ли говорить, что большие языковые модели (LLMs) по сути делают нас «глупее»?
Нет! Пожалуйста, не используйте слова вроде «тупой», «глупый», «деградация мозга», «вред», «повреждение», «повреждение мозга», «пассивность», «упрощение», «крах» и тому подобные.
Пожалуйста, также избегайте выражений вроде «сканирование мозга», «LLM заставляют перестать думать», «негативное влияние», «повреждение мозга», «ужасающие открытия».

А вообще, надо отдать им должное: они ухватились за хайповую тему и мощно выстрелили в медиа. Гении маркетинга!

О боже, учёные из MIT написали, что у нас отвалится жопа!! 🤣

Тем не менее, считаю своим долгом подушнить.

Начнём с того, что это даже не публикация, а препринт. То есть исследование (как дипломатично выразились некоторые журналисты) не прошло рецензирование — его просто выложили в интернете.

Это нормальная практика, если вы хотите получить обратную связь от коллег до подачи в журнал или работаете в конкурентной области, где важно как можно быстрее застолбить приоритет. В компьютерных науках так делают постоянно.

Но это создает проблему: теперь внимание и признание достаются не тем, кто сделал работу качественно, а тем, кто сделал её быстро и шумно. В результате общий уровень научных исследований проседает. Об этом уже есть публикации: тут и тут.

Методологических проблем в препринте хватает (см ниже). Но главное, сама статья очень тривиальная.

Во-первых, в ней вообще не рассматриваются возможные долговременные последствия использования языковых ассистентов. А ведь именно это и вызвало ажиотаж.

Во-вторых, подумать только! Люди, которые не особо вдумывались при написании текста, потом хуже его помнят и слабее ощущают авторство? Кто бы мог подумать! 🤔👩‍🎨

Вот вам ещё идея для гениального исследования: берём две группы, одна тренируется считать в уме, а другая — на калькуляторе. Вопрос на миллион: кто лучше справится с вычислениями в уме?

Перейдём к методологическим проблемам:

Маленькая выборка: всего 54 студента, а в последней сессии только 18. Ну это просто смешно, размер эффекта ничтожный.
Не учтены индивидуальные различия участников: уровень когнитивных способностей, образования, опыт работы с ассистентами. Групповые эффекты просто проигнорированы.
Контекст ограничен написанием эссе: делать из этого выводы про «умственные способности» в целом — некорректно. Это узкоспецифичная задача.
Задание не структурировано: авторы прямо пишут, что не делили процесс на подзадачи (генерация идей, написание, редактирование и т.д.). А ведь именно такая структура помогла бы понять, на каком этапе происходят те или иные когнитивные изменения — и что вообще измеряется.

Мне, как человеку, занимающемуся визуализацией, в глаза сразу бросаются вырвиглазные графики в стиле “как сделать хуже”. Цветовые шкалы без подписей (см. первый же график), радужные палитры с нелинейным градиентом (ох…), микроскопический шрифт 12 pt, который можно было бы спокойно заменить читаемым 18 pt. Крч дальше дефолтных настроек не шли.

С точки зрения ЭЭГ — тоже всё не так просто. Авторы пишут, что при самостоятельном письме наблюдается повышенная коннективность (связность между разными участками мозга). Звучит любопытно, но коннективность — не активация. Возможно, участники просто задействовали меньше участков мозга, но более эффективно.
Вы спросите, а почему нет спектрального анализа и локализации сигнала? А потому что, ЭЭГ в принципе не позволяет надёжно локализовать источник сигнала (она для временного разрешения). Для этого нужна fMRI, а она дорогая.

К чести авторов, они обещают все исправить в будущем.