Pull to refresh

Comments 7

Китайские модели логического мышления, такие как Kimi-K2-Thinking и GLM-4.7-Thinking, показали наихудшие результаты по сравнению со своими аналогами, основанными на прямом логическом мышлении. Примечательно, что это открытые модели, которые обычно показывают себя наравне с лучшими моделями в других тестах, что вызывает подозрение в их целенаправленной оптимизации для получения высоких результатов в тестах, а не для обеспечения надежности в реальных условиях.

Если уж рассматривать вопрос инструментализации тестов для конкурентной борьбы, то придётся допустить вариант, что тестовые запросы были подобраны так, чтобы китайцы показали в них худший результат.

Ну, например запросов могло быть не 950, а 3000 и из них были выбраны нужные.

Реальная предпосылка в том, что промты для разных моделей строятся по-разному. Как разные телевизоры управляются разными пультами. Если запросы генерили привыкшие к одному стилю, они без задней мысли сформулировали "неправильно" для другого "телевизора".

По ощущениям, мы сейчас упёрлись не столько в архитектуру, сколько в природу обучения. Модель слишком хорошо имитирует знание, даже когда его совсем нет

Да не-е-е! Ведь все [кто получает доход от бума ИИ] утверждают, что галлюцинаций почти нет!

Очень похоже, что исследование не такое уж и независимое. И кому могло быть выгодно такое исследование? Да не, показалось...

Галлюцинации будут неизбежны до тех пор, пока существует запрет на дословное копирование источника. Не все можно перефразировать без ущерба для точности.

Сами модели создавались с учетом необходимости изменять исходные данные, используемые для обучения. Чтобы не нарушать копирайт. Искажение информации это врожденное свойство генеративного ИИ.

Исследователи провели исследование и нашли 950 узкоспециализированных вопросов, в которых ИИ галлюцинируют. Как по мне, просто создали очередной бенчмарк.

Sign up to leave a comment.

Information

Website
bothub.chat
Registered
Founded
Employees
2–10 employees