В анонсе GPT-5.2 разработчики рассказали, как улучшилась ситуация с галлюцинациями новинки. Компания тестировала модель на запросах, похожих на реальные диалоги в ChatGPT, а ответы проверяла отдельная модель-оценщик с доступом в интернет. Считали две метрики: долю ошибочных фактов среди всех утверждений (их может быть несколько в ответе) и долю ответов, где есть хотя бы одна серьезная фактическая ошибка. Вторая метрика жестче: достаточно одного промаха, чтобы весь ответ попал в "проблемные".

Главный результат: GPT-5.2 Thinking с включенным поиском дает всего 0,8% ошибочных утверждений — против 1,5% у предыдущей GPT-5.1 Thinking. Это снижение почти вдвое. По второй метрике — ответы с крупной ошибкой — падение с 8,8% до 5,8%, то есть на треть. Во всех пяти тематических категориях, включая новости и текущие события, модель держится ниже 1%.

Без поиска картина резко меняется. GPT-5.2 Thinking выдает 3,1% ошибочных утверждений и 10,9% ответов с серьезными ошибками. Улучшение относительно предшественника есть, но скромное — около 14%. Также стоит отметить улучшение показателя knowlede cutoff — даты, по которую у модели есть знания. Теперь это 31 августа 2025 года против 1 октября 2024-го у GPT-5.1.

Если сравнивать не с GPT-5.1, а с оригинальной GPT-5 Thinking, динамика выглядит иначе. С включенным поиском прогресс был нелинейным: GPT-5 давала 1,1% ошибочных утверждений, GPT-5.1 откатилась до 1,5%, и только GPT-5.2 вышла на рекордные 0,8%. Без поиска улучшения идут последовательно, но темп замедляется: 4,7% у GPT-5, 3,2% у GPT-5.1 и 3,1% у GPT-5.2. Рекомендация во всех случаях простая: для любой информации, касающейся современных событий — включайте поиск.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.