Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей

Сегодня вышла новая модель от OpenAI o1-preview. Попробовал хитрые (для LLM и не очень для людей) задачки из Linguistic Benchmark Questions вроде той что на картинке или «У Алисы есть N братьев и M сестер. Сколько сестер у брата Алисы?». Новая OpenAI o1-preview решает. Буквально месяц назад на Habr выходила статья-перевод про такие задачи - Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей. Вывод был, что это большая проблема, ступор, кризис в отрасли, в комментариях писали, что LLM никогда не превзойдет... и кажется уже можно эту статью удалять. Т.е. есть некоторый шанс что новую модель просто обучили на этом самом Linguistic Benchmark Questions, а с уникальными новыми вопросами она справится хуже, но похоже она и действительно неплохо рассуждает (83% задач на отборочных экзаменах Международной математической олимпиады и 89 процентиль в Codeforces по заявлениям OpenAI ). Подождем более глубоких и широких сторонних исследований.

А мы с коллегами займемся нашими собственными сложными задачами на программирование и отчитаемся как OpenAI o1-preview с ними справляется в нашем ТГ канале AI4Dev, где мы пишем об использовании LLM в разработке софта.

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей — решено в OpenAI o1

Другие новости