Обновить

Упс, они сделали это снова? Почему ваш ИИ тупеет ровно перед выходом новой модели

Уровень сложностиПростой
Время на прочтение20 мин
Охват и читатели5.8K
Всего голосов 17: ↑12 и ↓5+8
Комментарии16

Комментарии 16

Одна из первых вещей, которые узнали о своих пользователях вендоры моделей - это то, что пользователи абсолютно неспособны объективно оценивать качество работы ИИ.

Это основной источник завязшего в зубах нытья про "модель стала хуже работать".

Одна и та же модель с одними и теми же весами, промптами и длинной контекста - но в день релиза пользователи говорят "ух ты как круто работает", а через месяц ноют про "почему она так отупела". Цифры на бенчмарках те же - но оценки пользователей просели на 20%. И так раз за разом. Как же так выходит?

А выходит так потому что пользователь - мешок с мокрым мясом, а не поверенный инструмент. Если модель объективно справляется с задачей в 50% случаев, то если пользователь хочет увидеть в этом "модель умная", то он это и увидит. А если хочет увидеть "модель тупая", то он увидит "модель тупая".

Более того - пользователь со временем адаптируется к модели. Он чаще начинает замечать типовые ошибки и косяки модели, которые на релизе были ему незаметны. Он начинает давать модели более сложные задачи, и находит пределы её компетентности. Он начинает халтурить с промптами и объяснять меньше, потому что новая модель умнее и даже с тупыми промптами иногда справляется с задачами - но "иногда" не "всегда", и упрощённый промпт легко может давать -20% к производительности.

Но пользователь не знает где проблема. Он промпты не бенчмаркал конечно. Он просто говорит "модель тупеет".

Это проблемы не модели или пользователей, а следствие отсутствия возможности управлять детерминированностью вычислений с помощью API провайдера.

Это верно, кстати. Идея детерминировать нейросеть представляется мне идиотской, но если бы была возможность задать зерно для шума, вопрос о том, та ли и с теми же ли параметрами модель сегодня отвечает, что и вчера, получил бы понятный верифицируемый тест.

Где гарантия что пров просто не закэширует ответ и не будет возвращать его все время?

А где гарантия, что пров запускает вычисления на той же самой модели?

В claude code нет возможности указать конкретные версии для скиллов. По умолчанию включено автообновление и он всегда использует последнюю версию. Это тоже приводит к дрифту результатов.

Заметил две вещи:
1. Ранее 4.6 был довольно толерантным к ошибкам, то есть предполагал что формула, которую ты вводишь написана с опечаткой и мягко поправлял. Теперь нет - 4.8 надо носом ткнуть в опечатку и обязательно подчеркнуть.
2. Другая сторона поведения - если в ваших тезисах и рассуждениях будет хоть одна малейшая зацепка возразить, даже несмотря на ее крошечную удельную долю в общей логике - данная зацепка будет искусственно раздута до гипертрофических размеров, типа "И вот тут честный разворот", "Сделаю честную оговорку", " Вот где картина разворачивается на 180°".
Я только за критическое мышление, но тут критическое мышление новых моделей (== обязательно что-то возразить в ответ) становится параноидальной навязчивой идеей

критическое мышление новых моделей

Это не критическое мышление.

Меня бесит qwen, который нынче всегда отвечает вопросом на вопрос, как одесситы

Я знаю. Можно было, конечно, подушнить, типа "набор шаблонов LLM, которые призваны имитировать квазикритическое мышление", которого не существует в принципе. Это просто измененная парадигма обработки информации, не больше

Вчера вечером по UTC+3 модель Opus 4.8 явно просела, прямо на глазах. Рассуждения стали отрывочными, сбивчивыми.
Сегодня работает как ни в чем не бывало.
Да и неделю назад, когда отключили Fable не сильно то и заметил. Продолжал кодить на Opus 4.8 с той же силой.
Кстати сам Fable мне сейчас нашел во вчерашних чатах просадку интеллекта.
Так что вывод о том что нельзя проверить просадки ложный. Проверяется и легко.

Про переключение моделей тоже не верно, переключение показывается юзеру явно. Сегодня три раза уже Fable у меня переключался на Opus.

На прошлой неделе Claude лежал пару часов в самый пик.
Но что точно я заметил, так это то что такие деградации все реже случаются. Еще пару месяцев назад все было хуже. Наверно контекст научились лучше держать.

Про переключение моделей тоже не верно, переключение показывается юзеру явно. Сегодня три раза уже Fable у меня переключался на Opus.

Вы же не можете знать какой на самом деле опус работает на том конце, 4.8 или вообще сонет, можно только верить тому, что транслируют в интерфейс.

Да какая мне разница что там "на самом деле". Я пилю фичи.
Кодовая база - 1500 файлов.
Создает новые экраны, сенарии экранов, дизайны иконок, оконнные процедуры в объёме по нескольку тысяч строк. Пишет потом тесты для этих экранов тоже тысячи строк. Пишет потом утилиты для развертывания. Идет ровно. Не было такого чтобы не мог без ошибок написать простенький модуль на 2 тыс. строк.
Я уже не помню когда последний раз отладчик открывал.
Ни одной синтаксической ошибки или промаха с утечками памяти уже много месяцев.
Что еще надо?

Ни разу не замечал деградацию, если не считать дешевых провайдеров которые любят сильно квантовать или сбоев, когда модель активирует не тех экспертов.

Автор откровенно пытается натянуть сову на глобус ссылаясь на все что только возможно, только вот реально инфа по ссылках или ничего не подтверждает или наоборот ломает всю "теорию".

Все зависит от того, как вы работаете с нейронками, думаю в чат боте и я бы не заметил. Но я работаю с кодом и делаю буквально каждый день по 12 часов, и я прям очень замечаю когда что-то меняется в привычных задачах.

Ну вот вы ссылаетесь на ишью, которые пишут каждый день - модель каждый день тупеет? Потом ссылаетесь на нотион, хотя они даже дали отдельное разъяснение что модели не отупели. Потом Marginlab, хотя сами же пишите что деградацию 30го он не фиксирует. Так зачем это все? Выглядит именно как натягивание совы на глобус с целью подтвердить свою правоту.

А еще есть ресурсы типа https://openlimits.app пользователи которых так же пойдут ругать антропик кто не понял - по ссылке скам с рерутингом на дешевые китайские модели.

В феврале Opus 4.6 был превосходен. Умный, быстрый, инициативный

Тоже по ощущениям февраль - пик мощи актуальной топовой модели. И неважно какие там номера и имена. Дальше только развитие агентского программирования

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации