ИИ AlphaProof в комбинации с Gemini достигает высокого уровня понимания математики. Google даже заявляет, что на Международной математической олимпиаде такая система получила бы серебряную медаль.
В реальном мире неточность больших языковых моделей удивляет. В Сети распространяют очередной тест на тупость БЯМ: просьбу сравнить числа 9,9 и 9,11.
Чаты по типу ChatGPT скармливают ввод от пользователя в БЯМ с неким ненулевым значением температуры, поэтому результаты генерации в ответ на один и тот же запрос могут различаться. К тому же не все скриншоты показывают полный контекст чатов. Тем не менее для почти всех доступных моделей есть примеры, где ИИ уверенным тоном объясняет, что 9,11 больше, чем 9,9. К примеру, эту ошибку демонстрируют ChatGPT, Claude и даже новая модель Llama 3.1 в варианте на 405 млрд параметров.
Объяснение ошибке найти просто. Как минимум в одном контексте 9.11 будет больше, чем 9.9 — версионирование программного обеспечения. Без дополнительного контекста математических вычислений БЯМ могут понимать вопрос неправильно.

Ошибка проявляется редко и может исчезать при изменении порядка слов в вопросе. Тем не менее пользователей крайне забавляет, когда ChatGPT вычитает 9,9 из 9,11 и получает 0,21, а отличный от собственного результат от API Python объясняет ошибками арифметики чисел с плавающей запятой. В другом случае модель Llama 3.1-405B согласилась, что совершила ошибку, но от утверждения «9,11 больше 9,9» не отказалась, придумав новое доказательство.