Comments 24
Ну, ежели выбирают его чаще, чем 4.5 Opus, значит будет на 3-м месте в арене

У Claude на странице анонса есть видео, где они демонстрируют, как используется их новая модель. Такое чувство, что они сидели и сами не знали - куда же можно ещё приткнуть использование AI: ToDo list! Добавить событие в календарь! Что, без AI это делать дольше? Сложнее?
В общем, модели сегодня крутые, спору нет. А вот реально полезных кэйсов для использования что-то как-то не очень много несмотря на все потуги "AI всех заменит"!
Если LLM сможет декомпозировать задачу и превратит её в атомарные todo штуки, да ещё выстроит их по порядку, основываясь на взаимозависимостях - это неплохо упростит жизнь.
Хотелось бы увидеть примеры таких задач, которые LLM может декомпозировать.
Кроме программирования пока практически не встречал...
Вбросил сейчас в Perplexity запрос: "Планирую поехать в отпуск через 3 месяца. Составь чеклист по тому, что мне надо сделать".
Получил нормальные 22 пункта, с разбивкой по периодам времени. Ничего такого, что я сам бы не вспомнил, да, но именно рутинную часть машина за меня сделала.
LLM декомпозиция - это парадигма skills. Дайте ей настояться, в mcp тоже не все сразу научились.
Надо сказать что sonnet 4.5 выглядел как демо версия opus4.5, т.е. может решить те же самые задачи, но иногда делает это очень плохо.
По тестам выглядит так что opus 4.6 обучили работать в мультиагентной системе, а sonnet 4.6 дообучили до уровня opus 4.5.
Тестировать это конечно все надо, только некогда (да и не особо понятно зачем, через три месяца модели опять обновятся на более прогрессивные).
Но есть надежда что по сути получим opus4.5 с лимитами sonnet. И от себя добавлю, opus расслабляет.
Первые 15 минут с Соннет 4.6 - дал три раза неверный совет, все три раза соглашался, что ошибся, перепутал свой и мой текст, заявил, что вот правильное решение, которое он и предлагал. Наконец, всё осознал и раскаялся. Конечно раз на раз не приходится, но заставляет задуматься.

Да и opus последние дни сильно упал в качестве. Как выкатили было норм и через несколько дней вниз Опять экономят
Сколько бы не доказывали обратное, я продолжаю убеждаться, что на русском языке все LLMки заметно тупее, чем на английском, и ошибаются на ровном месте.
Сильно зависит от того, как пишешь. Если писать как бы английский текст русскими словами, как в учебнике на русском для иностранцев, то все отлично
Поясните?
В английском языке порядок слов в предложении фиксирован, так что нейросеть будет это учитывать.
На русском перестановка слов может менять смысл от незначительного до противоположного, что сбивает толку нейросеть.
Например:
Он говорил только ей, что любит её.
Он только говорил ей, что любит её.
Нейросети понимают контекст уже лучше чем мы сами. Ответ от соннет 4.6 на вопрос одинаковые ли это фразы:
> Нет, они не одинаковые. Частица «только» меняет смысл в зависимости от того, к какому слову относится.
Он говорил только ей, что любит её. → Он признавался в любви исключительно ей, никому другому. Акцент на адресате.
Он только говорил ей, что любит её. → Он лишь говорил об этом (на словах), но не подтверждал делами. Акцент на пустоте слов — говорил, но не делал ничего больше.
Теперь ИИ модели как новые айфоны: каждый год чуть улучшили там, чуть улучшили сям, а в итоге то же злопахнущее месиво
Нет, я люблю ИИ и в частности Claude, но результаты не впечатляют просто(
Я думаю, пора просто признать, что слегка умные боты достигли локального Пика своего развития, и не ждать от них никакого прогресса в ближайшее время. Прогресс неизбежен, но его не нужно ожидать - просто обрадоваться, когда он наконец (в неопределённые сроки) наступит.
Ну да. А вы чего ожидали? Прорывов каждый год?
Везде прорывы случаются раз лет так в 10, в остальное время просто доработки, оптимизации, локальные улучшения
Вы просто не помните, какие они были "тупые" год назад , а два года ? Сколько было галлюцинаций? Когда появился chatgpt 5, я стал его использовать для верификации написанного claude, т.к. первый почти перестал галюцинировать. Как только вышел opus 4.6 смысл в подписке на chatgpt исчез - anthropic явно "поумнел" и стал меньше выдумывать факты. Может конечно субъективно
Между тем Claude Opus 4.6 Fast mode подорожал в 30 раз! по сравнению с Claude Sonnet
Еще вчера было только 3 раза.
Что бы это могло значить?
Представлен Sonnet 4.6 — лишь чуть хуже Opus 4.6