Comments 7
Китайские модели логического мышления, такие как Kimi-K2-Thinking и GLM-4.7-Thinking, показали наихудшие результаты по сравнению со своими аналогами, основанными на прямом логическом мышлении. Примечательно, что это открытые модели, которые обычно показывают себя наравне с лучшими моделями в других тестах, что вызывает подозрение в их целенаправленной оптимизации для получения высоких результатов в тестах, а не для обеспечения надежности в реальных условиях.
Если уж рассматривать вопрос инструментализации тестов для конкурентной борьбы, то придётся допустить вариант, что тестовые запросы были подобраны так, чтобы китайцы показали в них худший результат.
Ну, например запросов могло быть не 950, а 3000 и из них были выбраны нужные.
По ощущениям, мы сейчас упёрлись не столько в архитектуру, сколько в природу обучения. Модель слишком хорошо имитирует знание, даже когда его совсем нет
Да не-е-е! Ведь все [кто получает доход от бума ИИ] утверждают, что галлюцинаций почти нет!
Очень похоже, что исследование не такое уж и независимое. И кому могло быть выгодно такое исследование? Да не, показалось...
Галлюцинации будут неизбежны до тех пор, пока существует запрет на дословное копирование источника. Не все можно перефразировать без ущерба для точности.
Сами модели создавались с учетом необходимости изменять исходные данные, используемые для обучения. Чтобы не нарушать копирайт. Искажение информации это врожденное свойство генеративного ИИ.
Исследователи провели исследование и нашли 950 узкоспециализированных вопросов, в которых ИИ галлюцинируют. Как по мне, просто создали очередной бенчмарк.
Исследования показывают, что ИИ-модели по-прежнему слишком часто испытывают галлюцинации