альтернатива опусу только кодекс, он другой, но качество за пол года подтянули. Если deepseek v3.2 вас пол года назад не устраивал, то локально точно ничто не подойдёт. свое локальное и быстрое стоит от 20к баксов. можете поиграться с опенкодом и моделями там доступными, почти все мелко модельки можно попробовать. инференс железо пока не устаревает а наоборот приобретает актуальность как 3090 из прошлого. соберёте свой 1tb ram - через год сможете запустить на нем модель явно умнее тех что есть сейчас.
Из интересных моментов: Это превью V4, будут тюнить. Помимо 1.6T модели, которая вроде и есть в сети, но мало кто запустит, выпустили ещё и 862B params. Что ближе к оригиналу, надо разбираться что там к чему. Нативной мультимодальности нет, т.е. скрин приложения ему не кинуть на правку, но команда DeepSeek обещает прикрутить. Engram не прикрутили, но есть суперкомпрессия кэша. В записках жалуются на сложность обучения большой модели из-за внезапной деградации знаний при небольшой активации. Дообучали и в fp8 и в fp4. Если честно, сомнительно, ставить некуда, а по апи не дешево. Но сам факт наличия такой модели внушает.
да оно плюс минус, зависит от задачи и от языка. Opus лучше решает макрозадачи, но при этом может что-то пропустить. Кодекс хорош в мелких задачах, в макрозадачах его прям сильно заносило. Потестируем 5.5, конкуренциям всем нам в плюс.
И это правильный тейк, Deepseek v3.2 уже стоит 0.20usd/1mln. По поводу локального железа - стаки ~dgx spark(128gb) + usb4.0 помогут запустить очень мощные модели, но пока что медленно. Ryzen ai уже анонсировали всякое разное грядущее, а модели типа qwen27b добавляют оптимизма.
В марте лимиты были по акции, x2 с ресетами, сейчас лимиты вернулись к тому что предполагалось. >Нет ли каких-то универсальных правил и гайдлайнов, которые можно было бы использовать? Нет, даже у одной и той же модели качество использования тулзов падает от квантизации, q4/q8. Что хуже, модель в q4 вообще может решить что ей тулзы не нужны, а в q8 использовать без единой ошибки. При этом условному опусу никакие тулзы кроме доступа к терминалу не нужны, он может сходу сам себе python-скриптов накатать и заменить ими все тулзы. Во всяком случае так было для opus4.5, новый 4.7 может уже так и не делает. Понимаете к чему я? Оно слишком быстро меняется. Это как делать гайд по игре в шахматы, можно либо большими масками, и пусть игрок сам разбирается, либо все разжевывать, но тогда контекст перегружен. Лично я для себя нашел решение чем авторесерч со скилами, но мелкие модели прошлого очень плохо с этим работают, а новым вообще ничего не надо, сразу понимают что к чему.
Можно взять два аккаунта по 20 баксов и свитчить, получается дешевле. Лимиты вернулись к стандартным, ждем следующих промоакций. >Интересно было бы дальше углубиться в тему постановки и декомпозиции задачи, и верификации результатов каждого шага и автоматизации этапов. Вопрос возможно ли организационными мерами преодолеть ограничения заведомо более слабых локальных моделей. Занимался этим целый код, пока писал свой агент-оболочку, вердикт очень простой:
Модели обновляются быстрее чем вы настраевате автоматизацию декомпозиции задачи с тестированием и верификацией. А под новые модели надо новые пайплайны прикручивать, да ещё и тестировать. Оно сильно ускорилось со времен появления опуса, но даже атропики сходу сказали - они обновили токенизатор, так что меняйте все свои предыдущие промпты и правила.
на мелких промптах работает, дальше может упираться в prompt processing, он на mac'ах до m5 медленный. Говорят, может помочь кэширование промптов, но теперь вам ещё и за кэшированием надо следить. Короче, летать не будет, а пыхтеть будете вы :) >какрй агент при работе локально может пользоваться результатами веб поиска? На самом деле любой, если прикрутить mcp тулзу и свой собственный сервак по веб поиску, иначе за веб надо платить по апи.
если говорить технически, то gigachat от сбера, как и GLM5.1 - это форк архитектуры deepseek v3+, с плюшками (~700B модели). Только разница на лицо, но технически, сбер мог бы на том же уровне. Вот только чтобы хотя бы угнаться за вторым эшелоном все равно нужен свой compute, а это не про текущую обстановку.
отупление происходит когда запускают максимум мощностей для финального этапа RL-обучения, а не для того чтобы opus4.6 казался тупее. кстати забавно, что даже по их тестам новая модель оказалось хуже в agentic search. Что больше говорит о тестах, чем о модели, а модель получается все же иной, а не просто дообученной (редко модели дообучают с потерей в бенчмарках).
Будем смотреть, как обновят кодагенты. Хотя главная проблема опуса не его производительность, а его доступность.
альтернатива опусу только кодекс, он другой, но качество за пол года подтянули. Если deepseek v3.2 вас пол года назад не устраивал, то локально точно ничто не подойдёт. свое локальное и быстрое стоит от 20к баксов. можете поиграться с опенкодом и моделями там доступными, почти все мелко модельки можно попробовать. инференс железо пока не устаревает а наоборот приобретает актуальность как 3090 из прошлого. соберёте свой 1tb ram - через год сможете запустить на нем модель явно умнее тех что есть сейчас.
qwen3.5 4b. Будет не очень быстро, но шуршать. Можно хоть на телефон ставить, там не принципиально. Или уже старенький, но рабочий gpt-oss-20-a5b.
говорят vLLM для multi-gpu лучше работает
Из интересных моментов:
Это превью V4, будут тюнить.
Помимо 1.6T модели, которая вроде и есть в сети, но мало кто запустит, выпустили ещё и 862B params. Что ближе к оригиналу, надо разбираться что там к чему.
Нативной мультимодальности нет, т.е. скрин приложения ему не кинуть на правку, но команда DeepSeek обещает прикрутить.
Engram не прикрутили, но есть суперкомпрессия кэша.
В записках жалуются на сложность обучения большой модели из-за внезапной деградации знаний при небольшой активации.
Дообучали и в fp8 и в fp4.
Если честно, сомнительно, ставить некуда, а по апи не дешево. Но сам факт наличия такой модели внушает.
да оно плюс минус, зависит от задачи и от языка. Opus лучше решает макрозадачи, но при этом может что-то пропустить. Кодекс хорош в мелких задачах, в макрозадачах его прям сильно заносило. Потестируем 5.5, конкуренциям всем нам в плюс.
наоборот, у маска свои датацентры простаивают, он их сдавать пытался
мне кажется он покупает команду + датасеты, за оверпрайс, но лучше на рынке ничего нет
вам на какую часть выдумщиков отвечать? и почему выдумывают другие, а ответы вы хотите от меня?
почему вы приплетаете марксизм к обычному феодализму?
opencode для этого есть. Свои утилиты deepseek не делают, у них только мобильное приложение для чата.
И это правильный тейк, Deepseek v3.2 уже стоит 0.20usd/1mln.
По поводу локального железа - стаки ~dgx spark(128gb) + usb4.0 помогут запустить очень мощные модели, но пока что медленно. Ryzen ai уже анонсировали всякое разное грядущее, а модели типа qwen27b добавляют оптимизма.
В марте лимиты были по акции, x2 с ресетами, сейчас лимиты вернулись к тому что предполагалось.
>Нет ли каких-то универсальных правил и гайдлайнов, которые можно было бы использовать?
Нет, даже у одной и той же модели качество использования тулзов падает от квантизации, q4/q8. Что хуже, модель в q4 вообще может решить что ей тулзы не нужны, а в q8 использовать без единой ошибки. При этом условному опусу никакие тулзы кроме доступа к терминалу не нужны, он может сходу сам себе python-скриптов накатать и заменить ими все тулзы. Во всяком случае так было для opus4.5, новый 4.7 может уже так и не делает. Понимаете к чему я? Оно слишком быстро меняется. Это как делать гайд по игре в шахматы, можно либо большими масками, и пусть игрок сам разбирается, либо все разжевывать, но тогда контекст перегружен.
Лично я для себя нашел решение чем авторесерч со скилами, но мелкие модели прошлого очень плохо с этим работают, а новым вообще ничего не надо, сразу понимают что к чему.
Можно взять два аккаунта по 20 баксов и свитчить, получается дешевле.
Лимиты вернулись к стандартным, ждем следующих промоакций.
>Интересно было бы дальше углубиться в тему постановки и декомпозиции задачи, и верификации результатов каждого шага и автоматизации этапов. Вопрос возможно ли организационными мерами преодолеть ограничения заведомо более слабых локальных моделей.
Занимался этим целый код, пока писал свой агент-оболочку, вердикт очень простой:
Модели обновляются быстрее чем вы настраевате автоматизацию декомпозиции задачи с тестированием и верификацией. А под новые модели надо новые пайплайны прикручивать, да ещё и тестировать. Оно сильно ускорилось со времен появления опуса, но даже атропики сходу сказали - они обновили токенизатор, так что меняйте все свои предыдущие промпты и правила.
на мелких промптах работает, дальше может упираться в prompt processing, он на mac'ах до m5 медленный. Говорят, может помочь кэширование промптов, но теперь вам ещё и за кэшированием надо следить. Короче, летать не будет, а пыхтеть будете вы :)
>какрй агент при работе локально может пользоваться результатами веб поиска?
На самом деле любой, если прикрутить mcp тулзу и свой собственный сервак по веб поиску, иначе за веб надо платить по апи.
просто хейтерки бегают с забралом
если говорить технически, то gigachat от сбера, как и GLM5.1 - это форк архитектуры deepseek v3+, с плюшками (~700B модели). Только разница на лицо, но технически, сбер мог бы на том же уровне.
Вот только чтобы хотя бы угнаться за вторым эшелоном все равно нужен свой compute, а это не про текущую обстановку.
что значит будут? давно продают
вообще - да.
отупление происходит когда запускают максимум мощностей для финального этапа RL-обучения, а не для того чтобы opus4.6 казался тупее.
кстати забавно, что даже по их тестам новая модель оказалось хуже в agentic search.
Что больше говорит о тестах, чем о модели, а модель получается все же иной, а не просто дообученной (редко модели дообучают с потерей в бенчмарках).
Будем смотреть, как обновят кодагенты.
Хотя главная проблема опуса не его производительность, а его доступность.
значит теперь будут продавать сразу верифицированные аккаунты