Обновить
3

Пользователь

Отправить сообщение

Ревьюить по диффам дело довольно бесполезное, я бы только gpt 5.4-5.5 доверил(нет не опусу, опус часто выдаёт дичь), и стоимость ревью выйдет довольно большой.

Если хочется нормального подхода, то делайте OpenCode review агента, давайте ему возможность запускать код, и вот это уже будет работать даже с небольшими моделями типо minimax m2.7. У нас для ревью пайплайн примерно как на скрине.

Где - платиру, но больше таких вкусных предложений не вижу, только за 3к на год. Кстати, в приложении chatGPT (а если вы "серьёзно" вайбкодите то подписка плюс/про должна быть) недавно добавили схожую функцию

Ну вам как человеку разницы нет, а вот модели есть в силу её архитектуры.

Модель начнёт пытаться писать ответ на русском. В зависимости от модели она начнёт делать и промежуточные выводы на русском, а может даже и reasoning. Поскольку модель хуже генерирует русский, то повышается ошибка галлюцинации - в первую очередь модели учат на английских данных. Если у модели внутренние рассуждения на англ, то вы получаете мешанину в attention постоянно, если на русском, то оно там вообще может сходить с ума внутри.

Кроме того, весь фронтир это MoE модели. У них знание распределены неоднородно, какие-то эксперты лучше работают с русским, какие-то хуже. Вы заставляете роутер экспертов выбирать первых, что снижает вероятность сработать релевантному для задачи эксперта.

Ну и как я уже сказал, эффективность токенизации. У меня зачастую задачи занимают по 100-200к контекста. Чем дальше идём в контекст, тем менее точно работает модель. Использование русского = раздувание контекстного окна -> падает точность.

Дело не только в токенизации, модели видели на порядок больше данных на английском, весь код это по сути английский, весь coding RL делается на английском(ну может ещё на китайском немного), большинство терминов это английский. Даже если забить на token efficiency, вы просто выходите модель из режима под который она обучалась, особенно когда речь идёт про кодинг.

Пользуюсь wispr flow уже несколько месяцев, проблем из поста не заметил, сильно упрощает жизнь. Правда мне мультиязычность не нужна - считаю что общаться с ллм на русском это моветон и дроп качества генерации. Ключ на год можно взять за что-то около 1.5к кстати.

Ну в целом Claude Code не самый лучший harness, может удобно если привык, но я больше месяца не выдержал когда попробовал после OpenCode. Да, и как бы то не было смешно, по метрикам тот же опус вне CC работает лучше :) Сам пользуюсь codex + OpenCode.

В целом советую присмотреться к OpenCode, Pi, Hermes, Droid. Сам пользуюсь OpenCode, с настроенными агентами, хуками на гитлаб и так далее, кайф. И туда можно легально добавить codex подписку, учитывая что gpt 5.4 сильно лучше опуса везде кроме фронта это очень хороший вариант. Много кто очень положительно говорит про три другие harness что я упомянул(особенно про связку GLM 5.1 + droid), пользоваться CC сейчас становится всё меньше и меньше смысла.

(по слухам) 5.2 это был сыроватый чекпоинт, 5.3 это полное обучение того же претрейна. Что интересно, ни слова про обычную 5.3 для чата, только codex вариант.

4.6v flash, вы забыли "v". Модель обучалась на vision задачах и поэтому недотягивает в остальных доменах.

Gemini 3 pro сильнее как чат модель, но в реальном агентном кодинге она проигрывает как gpt, так и Claude opus. Для агентного я даже предпочту условный minimax m2.1 чтоб не разбираться с приколами от Gemini.

По своему личному опыту, опус это отличная модель, но chatGPT 5.2 codex xhigh лучше. Просто кодекс надо уметь готовить(да и опус тоже), у меня нет проблем ни с одной из моделей в моих репо, но опус был замечен в странных вещах мною чаще.

В цикле микроправок сидеть, кстати, не будете, даже с Cerebras модель врядли будет давать больше 500 tps, я бы поставил на 200-300, что учитывая сколько модель рассуждает и сколько контекста она собирает перед ответом всё равно будет не мгновенно.

Почему вы сравнивание бесплатную версию? Зачем? Да и вообще, вся соль этих моделей - запуск в режиме агента, о каком серьёзном кодинге в режиме веб чата вообще может идти речь?

"Интересный" релиз, конечно, даже без бенчмарков, мол а кому они нужны?)

И ни слова про Codex на 5.1, или там разница насколько минимальна что на кодексе никак не скажется бамп версии...

Буквально на днях дипсик сделали статью где они с помощью GRPO подобного метода автоматически составляют системный промпт для адаптации модели под конкретные агентных задачи. Такой тюнинг промпта выходит всего в десять баксов, даёт неплохой прирост, практически автоматически происходит. Так что ничего не мертво, просто это можно делать эффективно автоматически)

И в августе была статья на тему составления case bank где агент запоминает прошлые запросы и по ходу дела учится решать задачу читая наиболее релевантную историю, но там посложнее сетка, с разделением агента на планирование и выполнение.

Вы как пользователь не учитывайте тот факт, что в претрейне сейчас куча синтетики с интернета. Если раньше для условной gpt 4 можно было спокойно включить в данные претрейна тысячу семплов "I'm a gpt 4 - the latest AI model from openAI", и потом в файнтюне добавить семплов "What kind of model are you? -> I'm gpt 4..." и модель этому хорошо бы училась, то прямо сейчас в претрейне УЖЕ есть такие ответы со старыми названиями просто как результат парсинга сайтов. Т.е. модель во время претрейна видит десятки тысяч предложений где она себя как только не называет. Внезапно, после этого тюнить её становится сложнее, и в целом на этапе файнтюна не принято добавлять новые знания в модель, на то он и файнтюн. Если бы это можно было сделать безболезненно для модели - так бы и делали.

Ммм, в 2025 сравнивать кодинг на единичном промпте не в режиме агента, печально(

Немного дополню информацию по квену: qwen 3 coder доступен бесплатно 2К промптов в день через qwen code, но в целом при наличии GLM 4.6 и обновлённого Kimi k2 по копеечным ценам квен не сильно актуален если нет погони за халявой.

По гпт: там вообще есть gpt5-codex для агентного кодинга через codex, ну или хотя бы через курсор, а не тупо в чатике, но тут кому надо и так всё знают.

Почти все популярные движки инференса поддерживают multigpu. Для SGLang/vLLM придется поиграться с конфигом pipeline/tensor/data/expert parallelism ибо редко какие модели получится запустить с tp 3, для llama.cpp тупо слои по гпушкам раскидать и всё.

Но зачем? Даже anthropic не учит свои модели отвечать точно про себя, sonnet 4 и 4.5 с уверенностью считают что они 3.5-3.7. Никому не нужная фича, если прям очень надо чтоб модель себя называла как-то, то это вставляют прям в системный промпт (как те же Perplexity) и не портят веса модели бесполезной информацией.

БУ 3090 - 60к за 24гб врам, пока что самое выгодное решение на рынке. Скоро будет 5070tis с (по слухам) 24гб и уже нативной поддержкой fp8, может она сможет сместить 3090, и то не факт.

Там берт, берт можно тюнить без лоры на 2080ti спокойно, не то что инференсить.

Урезанные? Вы 5090 видели?) И скоро будут super версии 5000 серии, где по слухам воткнут 24гб в 5070ti super.

Энтузиасты используют 3090 в основном, всего 600 баксов за бу, 24гб, fp8 для llama.cpp не нужен.

Информация

В рейтинге
5 600-й
Зарегистрирован
Активность