timonin2 июл в 10:30

Упс, они сделали это снова? Почему ваш ИИ тупеет ровно перед выходом новой модели

Простой

20 мин

10K

Искусственный интеллектМашинное обучение * Исследования и прогнозы в IT * Научно-популярное

Мнение

+23

Комментарии 24

acc0unt 2 июл в 10:46

Одна из первых вещей, которые узнали о своих пользователях вендоры моделей - это то, что пользователи абсолютно неспособны объективно оценивать качество работы ИИ.

Это основной источник завязшего в зубах нытья про "модель стала хуже работать".

Одна и та же модель с одними и теми же весами, промптами и длинной контекста - но в день релиза пользователи говорят "ух ты как круто работает", а через месяц ноют про "почему она так отупела". Цифры на бенчмарках те же - но оценки пользователей просели на 20%. И так раз за разом. Как же так выходит?

А выходит так потому что пользователь - мешок с мокрым мясом, а не поверенный инструмент. Если модель объективно справляется с задачей в 50% случаев, то если пользователь хочет увидеть в этом "модель умная", то он это и увидит. А если хочет увидеть "модель тупая", то он увидит "модель тупая".

Более того - пользователь со временем адаптируется к модели. Он чаще начинает замечать типовые ошибки и косяки модели, которые на релизе были ему незаметны. Он начинает давать модели более сложные задачи, и находит пределы её компетентности. Он начинает халтурить с промптами и объяснять меньше, потому что новая модель умнее и даже с тупыми промптами иногда справляется с задачами - но "иногда" не "всегда", и упрощённый промпт легко может давать -20% к производительности.

Но пользователь не знает где проблема. Он промпты не бенчмаркал конечно. Он просто говорит "модель тупеет".

rsashka 2 июл в 11:06

Это проблемы не модели или пользователей, а следствие отсутствия возможности управлять детерминированностью вычислений с помощью API провайдера.

netricks 2 июл в 12:47

Это верно, кстати. Идея детерминировать нейросеть представляется мне идиотской, но если бы была возможность задать зерно для шума, вопрос о том, та ли и с теми же ли параметрами модель сегодня отвечает, что и вчера, получил бы понятный верифицируемый тест.

Barnaby 2 июл в 12:56

Где гарантия что пров просто не закэширует ответ и не будет возвращать его все время?

sergey_vasin 2 июл в 16:16

А где гарантия, что пров запускает вычисления на той же самой модели?

weirded 3 июл в 03:48

А чо, в облачной проприетарщине seed как в ollama закинуть нельзя?

Barnaby 3 июл в 20:21

Кстати, есть ведь TEE. Но с ним можно взять только открытые модели и стоит это дороже

Скрытый текст

funca 2 июл в 17:30

В claude code нет возможности указать конкретные версии для скиллов. По умолчанию включено автообновление и он всегда использует последнюю версию. Это тоже приводит к дрифту результатов.

SER_26 2 июл в 20:17

пользователь - мешок с мокрым мясом, а не поверенный инструмент.

Цифры на бенчмарках те же

Так и бенчмарк не является поверенным инструментом. Масса подкруток, утечек данных, манипуляций. В то же время "сигнал из реальной эксплуатации" (in-the-wild feedback) - важный показатель. "Тихие сбои" как раз он ловит. Он тоже не идеален, как и бенчмарк, но автор и не утверждает это.

То есть, то что Вы описываете - существует, но это не опровергает важность данного показателя (в идеале его, конечно, надо поверять слепыми A/B тестами и прогонять через LLM-судью).

Zoolander 5 июл в 03:34

Вы пропустили абзац где компания гоняет тесты на одних и тех же задачах и документирует реальное проседание по этим тестам, а не по субъективным впечатлениям юзеров

steelfactor 2 июл в 11:10

Заметил две вещи:
1. Ранее 4.6 был довольно толерантным к ошибкам, то есть предполагал что формула, которую ты вводишь написана с опечаткой и мягко поправлял. Теперь нет - 4.8 надо носом ткнуть в опечатку и обязательно подчеркнуть.
2. Другая сторона поведения - если в ваших тезисах и рассуждениях будет хоть одна малейшая зацепка возразить, даже несмотря на ее крошечную удельную долю в общей логике - данная зацепка будет искусственно раздута до гипертрофических размеров, типа "И вот тут честный разворот", "Сделаю честную оговорку", " Вот где картина разворачивается на 180°".
Я только за критическое мышление, но тут критическое мышление новых моделей (== обязательно что-то возразить в ответ) становится параноидальной навязчивой идеей

Dhwtj 2 июл в 15:13

критическое мышление новых моделей

Это не критическое мышление.

Меня бесит qwen, который нынче всегда отвечает вопросом на вопрос, как одесситы

steelfactor 2 июл в 15:54

Я знаю. Можно было, конечно, подушнить, типа "набор шаблонов LLM, которые призваны имитировать квазикритическое мышление", которого не существует в принципе. Это просто измененная парадигма обработки информации, не больше

Brazil 2 июл в 11:31

Вчера вечером по UTC+3 модель Opus 4.8 явно просела, прямо на глазах. Рассуждения стали отрывочными, сбивчивыми.
Сегодня работает как ни в чем не бывало.
Да и неделю назад, когда отключили Fable не сильно то и заметил. Продолжал кодить на Opus 4.8 с той же силой.
Кстати сам Fable мне сейчас нашел во вчерашних чатах просадку интеллекта.
Так что вывод о том что нельзя проверить просадки ложный. Проверяется и легко.

Про переключение моделей тоже не верно, переключение показывается юзеру явно. Сегодня три раза уже Fable у меня переключался на Opus.

На прошлой неделе Claude лежал пару часов в самый пик.
Но что точно я заметил, так это то что такие деградации все реже случаются. Еще пару месяцев назад все было хуже. Наверно контекст научились лучше держать.

timonin 2 июл в 11:48

Про переключение моделей тоже не верно, переключение показывается юзеру явно. Сегодня три раза уже Fable у меня переключался на Opus.

Вы же не можете знать какой на самом деле опус работает на том конце, 4.8 или вообще сонет, можно только верить тому, что транслируют в интерфейс.

Brazil 2 июл в 11:57

Да какая мне разница что там "на самом деле". Я пилю фичи.
Кодовая база - 1500 файлов.
Создает новые экраны, сенарии экранов, дизайны иконок, оконнные процедуры в объёме по нескольку тысяч строк. Пишет потом тесты для этих экранов тоже тысячи строк. Пишет потом утилиты для развертывания. Идет ровно. Не было такого чтобы не мог без ошибок написать простенький модуль на 2 тыс. строк.
Я уже не помню когда последний раз отладчик открывал.
Ни одной синтаксической ошибки или промаха с утечками памяти уже много месяцев.
Что еще надо?

dkeiz 2 июл в 21:54

дело не в контексте, дело в аренде новых серверов у маска за 30 млрд

Barnaby 2 июл в 12:24

Ни разу не замечал деградацию, если не считать дешевых провайдеров которые любят сильно квантовать или сбоев, когда модель активирует не тех экспертов.

Автор откровенно пытается натянуть сову на глобус ссылаясь на все что только возможно, только вот реально инфа по ссылках или ничего не подтверждает или наоборот ломает всю "теорию".

timonin 2 июл в 12:31

Все зависит от того, как вы работаете с нейронками, думаю в чат боте и я бы не заметил. Но я работаю с кодом и делаю буквально каждый день по 12 часов, и я прям очень замечаю когда что-то меняется в привычных задачах.

Barnaby 2 июл в 12:55

Ну вот вы ссылаетесь на ишью, которые пишут каждый день - модель каждый день тупеет? Потом ссылаетесь на нотион, хотя они даже дали отдельное разъяснение что модели не отупели. Потом Marginlab, хотя сами же пишите что деградацию 30го он не фиксирует. Так зачем это все? Выглядит именно как натягивание совы на глобус с целью подтвердить свою правоту.

А еще есть ресурсы типа https://openlimits.app пользователи которых так же пойдут ругать антропик кто не понял - по ссылке скам с рерутингом на дешевые китайские модели.

Dhwtj 2 июл в 15:06

В феврале Opus 4.6 был превосходен. Умный, быстрый, инициативный

Тоже по ощущениям февраль - пик мощи актуальной топовой модели. И неважно какие там номера и имена. Дальше только развитие агентского программирования

SER_26 2 июл в 20:24

Или я всё‑таки сошёл с ума и выдумал закономерность там, где её нет?

"Если у Вас нет паранойи, это не значит, что за Вами никто не следит" ©
Полагаю, рост кармы на Хабре явно показывает Ваше душевное здоровье:-)

Если серьёзно, то отличная статья, спасибо! И очень хорошо подобран уровень утверждений. Не "я раскрыл мировой заговор, все бежим на свои фермы!!!", а "вот вам факты и предположения, задумайтесь".

НЛО прилетело и опубликовало эту надпись здесь

rPman 3 июл в 19:20

нет доступного железа по адекватной цене что бы запускать топовые открытые модели 'для своих'.

Условная glm-2.5 (вроде она считается лучшей на текущий момент из доступных для запуска) требует для работы железо (600gb-800gb vram) с ценой порядка $8k-$10k в месяц (vas.ai можно набрать на $12 в час, и позволит оптимизировать аренду с почасовой оплатой почти на треть, особенно если команда в одном часовом поясе, но будет проблема с весами, пол терабайта развернуть за час не получится, нужно напрямую связываться с хостером). Одна машина сможет обрабатывать без заметной деградации скорости порядка 8 одновременных запросов (вроде бы всего двухкратное понижение скорости генерации относительно одного, но скорость обработки input упадет сильнее, оно не паралелится)... в общем не сходится никак маркетинг.

Крупные провайдеры могут оптимизировать инференс за счет большого количества клиентов и плавно подруливать количеством серверов и используя почасовую оплату (условно bare metall для постоянной нагрузки, а пиковые разруливать более дорогой почасовой арендой). Мелким это недоступно.

p.s. llama.cpp умеет собирать в единый кластер машины по сети, в т.ч. cpu, в т.ч. разнородное железо. В некотором смысле, собрать из десятка машин с десктопным железом (оно дешевле почти в 10 раз) а так как там moe архитектура, даже не сильно платить за это скоростью... условные 2.5 милиона рублей и кластер из 40-штук 5060ti 16гб у вас в кармане, делим на условные 3 года (это все начнет ломаться) и получаем примерно 2т.р. в сутки.. уже более реально но все еще грустно для небольших команд

Зарегистрируйтесь на Хабре, чтобы оставить комментарий