Комментарии / Профиль Theio / Хабр

Пользователь

Гефестыч: наш опыт автоматизации Code Review через LLM. «Грабли», решения, код

Вопрос про железо сложный ибо я как мудак запускаю всё прямо на нашем HPC, прям вне slurm:)

Тут главное ограничение это ресурсы вашего приложения, т.е. если вы хотите чтоб агент мог запускать код, то стенд должен быть достаточно мощный для этого (у меня не все пайплайны работают в режиме запуска кода, часть просто читают репо чтоб ответить в issue). Сам опенкод жрёт ну мегабайт 500, и то это если с TUI.

Ну и в целом зависит от активности команды, у нас всё тузло так что дай бог если один мир в день открывается, ну и в нём пингуется бот на ревью/тестирование периодически.

Гефестыч: наш опыт автоматизации Code Review через LLM. «Грабли», решения, код

Theio 9 часов назад

Сам собрал, мини приложение для обработки звуков от гитлаба и запуска опенкоде по ним. Могу скинуть ссыль на гитхаб, но там вайбкод на вайбкоде)

Гефестыч: наш опыт автоматизации Code Review через LLM. «Грабли», решения, код

Theio 4 мая в 16:14

Ревьюить по диффам дело довольно бесполезное, я бы только gpt 5.4-5.5 доверил(нет не опусу, опус часто выдаёт дичь), и стоимость ревью выйдет довольно большой.

Если хочется нормального подхода, то делайте OpenCode review агента, давайте ему возможность запускать код, и вот это уже будет работать даже с небольшими моделями типо minimax m2.7. У нас для ревью пайплайн примерно как на скрине.

Голосовой ввод на русско-английском в 2026: WisprFlow, Handy, OpenWhispr, GigaAM v3 — для диктовки нейросетям и кода

Theio 2 мая в 16:22

Где - платиру, но больше таких вкусных предложений не вижу, только за 3к на год. Кстати, в приложении chatGPT (а если вы "серьёзно" вайбкодите то подписка плюс/про должна быть) недавно добавили схожую функцию

Голосовой ввод на русско-английском в 2026: WisprFlow, Handy, OpenWhispr, GigaAM v3 — для диктовки нейросетям и кода

Theio 21 апр в 12:56

Ну вам как человеку разницы нет, а вот модели есть в силу её архитектуры.

Модель начнёт пытаться писать ответ на русском. В зависимости от модели она начнёт делать и промежуточные выводы на русском, а может даже и reasoning. Поскольку модель хуже генерирует русский, то повышается ошибка галлюцинации - в первую очередь модели учат на английских данных. Если у модели внутренние рассуждения на англ, то вы получаете мешанину в attention постоянно, если на русском, то оно там вообще может сходить с ума внутри.

Кроме того, весь фронтир это MoE модели. У них знание распределены неоднородно, какие-то эксперты лучше работают с русским, какие-то хуже. Вы заставляете роутер экспертов выбирать первых, что снижает вероятность сработать релевантному для задачи эксперта.

Ну и как я уже сказал, эффективность токенизации. У меня зачастую задачи занимают по 100-200к контекста. Чем дальше идём в контекст, тем менее точно работает модель. Использование русского = раздувание контекстного окна -> падает точность.

Голосовой ввод на русско-английском в 2026: WisprFlow, Handy, OpenWhispr, GigaAM v3 — для диктовки нейросетям и кода

Theio 20 апр в 22:11

Дело не только в токенизации, модели видели на порядок больше данных на английском, весь код это по сути английский, весь coding RL делается на английском(ну может ещё на китайском немного), большинство терминов это английский. Даже если забить на token efficiency, вы просто выходите модель из режима под который она обучалась, особенно когда речь идёт про кодинг.

Голосовой ввод на русско-английском в 2026: WisprFlow, Handy, OpenWhispr, GigaAM v3 — для диктовки нейросетям и кода

Theio 20 апр в 07:22

Пользуюсь wispr flow уже несколько месяцев, проблем из поста не заметил, сильно упрощает жизнь. Правда мне мультиязычность не нужна - считаю что общаться с ллм на русском это моветон и дроп качества генерации. Ключ на год можно взять за что-то около 1.5к кстати.

Началось: меня забанили в Claude Code на аккаунте за $200

Theio 11 апр в 15:33

Ну в целом Claude Code не самый лучший harness, может удобно если привык, но я больше месяца не выдержал когда попробовал после OpenCode. Да, и как бы то не было смешно, по метрикам тот же опус вне CC работает лучше :) Сам пользуюсь codex + OpenCode.

В целом советую присмотреться к OpenCode, Pi, Hermes, Droid. Сам пользуюсь OpenCode, с настроенными агентами, хуками на гитлаб и так далее, кайф. И туда можно легально добавить codex подписку, учитывая что gpt 5.4 сильно лучше опуса везде кроме фронта это очень хороший вариант. Много кто очень положительно говорит про три другие harness что я упомянул(особенно про связку GLM 5.1 + droid), пользоваться CC сейчас становится всё меньше и меньше смысла.

OpenAI представила GPT-5.3-Codex. Модель разрабатывали и обучали в тесной связке с инфраструктурой NVIDIA

Theio 6 фев в 07:19

(по слухам) 5.2 это был сыроватый чекпоинт, 5.3 это полное обучение того же претрейна. Что интересно, ни слова про обычную 5.3 для чата, только codex вариант.

GLM-4.7-Flash обходит модели вдвое крупнее — и запускается на ноутбуке

Theio 20 янв в 11:29

4.6v flash, вы забыли "v". Модель обучалась на vision задачах и поэтому недотягивает в остальных доменах.

Похоже, GPT-5.3 уже на подходе — и это может быть один из самых серьёзных апдейтов OpenAI за долгое время

Theio 19 янв в 22:21

Gemini 3 pro сильнее как чат модель, но в реальном агентном кодинге она проигрывает как gpt, так и Claude opus. Для агентного я даже предпочту условный minimax m2.1 чтоб не разбираться с приколами от Gemini.

Похоже, GPT-5.3 уже на подходе — и это может быть один из самых серьёзных апдейтов OpenAI за долгое время

Theio 19 янв в 22:17

По своему личному опыту, опус это отличная модель, но chatGPT 5.2 codex xhigh лучше. Просто кодекс надо уметь готовить(да и опус тоже), у меня нет проблем ни с одной из моделей в моих репо, но опус был замечен в странных вещах мною чаще.

В цикле микроправок сидеть, кстати, не будете, даже с Cerebras модель врядли будет давать больше 500 tps, я бы поставил на 200-300, что учитывая сколько модель рассуждает и сколько контекста она собирает перед ответом всё равно будет не мгновенно.

Похоже, GPT-5.3 уже на подходе — и это может быть один из самых серьёзных апдейтов OpenAI за долгое время

Theio 19 янв в 22:10

Почему вы сравнивание бесплатную версию? Зачем? Да и вообще, вся соль этих моделей - запуск в режиме агента, о каком серьёзном кодинге в режиме веб чата вообще может идти речь?

OpenAI выпустила GPT-5.1

Theio 12 ноя 2025 в 23:25

"Интересный" релиз, конечно, даже без бенчмарков, мол а кому они нужны?)

И ни слова про Codex на 5.1, или там разница насколько минимальна что на кодексе никак не скажется бамп версии...

Промпт-инжиниринг мёртв? Почему «как спросить» больше не важно, и что приходит на смену

Theio 21 окт 2025 в 23:09

Буквально на днях дипсик сделали статью где они с помощью GRPO подобного метода автоматически составляют системный промпт для адаптации модели под конкретные агентных задачи. Такой тюнинг промпта выходит всего в десять баксов, даёт неплохой прирост, практически автоматически происходит. Так что ничего не мертво, просто это можно делать эффективно автоматически)

И в августе была статья на тему составления case bank где агент запоминает прошлые запросы и по ходу дела учится решать задачу читая наиболее релевантную историю, но там посложнее сетка, с разделением агента на планирование и выполнение.

Как мы запустили GPU NVIDIA H200 в Selectel, или почему в золотую лихорадку непросто продавать лопаты

Theio 17 окт 2025 в 21:50

Вы как пользователь не учитывайте тот факт, что в претрейне сейчас куча синтетики с интернета. Если раньше для условной gpt 4 можно было спокойно включить в данные претрейна тысячу семплов "I'm a gpt 4 - the latest AI model from openAI", и потом в файнтюне добавить семплов "What kind of model are you? -> I'm gpt 4..." и модель этому хорошо бы училась, то прямо сейчас в претрейне УЖЕ есть такие ответы со старыми названиями просто как результат парсинга сайтов. Т.е. модель во время претрейна видит десятки тысяч предложений где она себя как только не называет. Внезапно, после этого тюнить её становится сложнее, и в целом на этапе файнтюна не принято добавлять новые знания в модель, на то он и файнтюн. Если бы это можно было сделать безболезненно для модели - так бы и делали.

Триллион параметров против здравого смысла: тестируем Qwen3-MAX и друзей

Theio 16 окт 2025 в 22:27

Ммм, в 2025 сравнивать кодинг на единичном промпте не в режиме агента, печально(

Немного дополню информацию по квену: qwen 3 coder доступен бесплатно 2К промптов в день через qwen code, но в целом при наличии GLM 4.6 и обновлённого Kimi k2 по копеечным ценам квен не сильно актуален если нет погони за халявой.

По гпт: там вообще есть gpt5-codex для агентного кодинга через codex, ну или хотя бы через курсор, а не тупо в чатике, но тут кому надо и так всё знают.

Как мы запустили GPU NVIDIA H200 в Selectel, или почему в золотую лихорадку непросто продавать лопаты

Theio 16 окт 2025 в 19:30

Почти все популярные движки инференса поддерживают multigpu. Для SGLang/vLLM придется поиграться с конфигом pipeline/tensor/data/expert parallelism ибо редко какие модели получится запустить с tp 3, для llama.cpp тупо слои по гпушкам раскидать и всё.

Как мы запустили GPU NVIDIA H200 в Selectel, или почему в золотую лихорадку непросто продавать лопаты

Theio 16 окт 2025 в 19:26

Но зачем? Даже anthropic не учит свои модели отвечать точно про себя, sonnet 4 и 4.5 с уверенностью считают что они 3.5-3.7. Никому не нужная фича, если прям очень надо чтоб модель себя называла как-то, то это вставляют прям в системный промпт (как те же Perplexity) и не портят веса модели бесполезной информацией.

Как я пытался ускорить анализ 12 000 комментариев с помощью GPU за 50 тысяч, но победил процессор

Theio 14 окт 2025 в 17:11

БУ 3090 - 60к за 24гб врам, пока что самое выгодное решение на рынке. Скоро будет 5070tis с (по слухам) 24гб и уже нативной поддержкой fp8, может она сможет сместить 3090, и то не факт.

2 3