Я перепробовал кучу подходов и моделей, качество review даже самых последних из них ужасно, включая opus 4.6 и gemini 3.1 Pro. Да, они что-то находят иногда, но оно тонет в false positive и вкусовщине. Единственный кто более менее хорошо справляется с задачей это gpt5.3-codex, и то в режиме xhigh, с доступом к куче инструментов и всему репозиторию кода. Над небольшим PR в агентском режиме он анализирует код и влияние изменений на всю кодовую базу от 15 до 30 минут. Тогда есть шанс найти реальные баги.
Всё что ниже не имеет никакого смысла, и делается обычными линтерами. Попробуйте то о чём я говорю, сравните разницу, и подумайте есть ли смысл развивать проект.
P.S. по стоимости токенов такое ревью выходит где-то 0.5$, это почти "бесплатно", и уровень качества не сопоставим ни с одной "бесплатной" моделью.
О дааа. Я один в один узнаю что происходит в нашей компании.
При чем меня можно назвать AI энтузиастом, хвастаюсь за все новые разработки, первым всё пробую, агенты, модели, скилы, пайплайны, вот это всё. Начальство очень любит такое и поощряет. Но когда я вижу как они пытаются внедрять на это какие метрики и goals, становится печально.
Зачем это нужно? Качество такого ревью будет строго отрицательным. То есть разработчик потратит больше времени на разбор глупых галлюцинаций, чем если бы этого ревью вообще не было. То что описано в статье никогда не будет работать просто по самой архитектуре.
С удовольствием прочитал, потому что сам пытаюсь научить openclaw делать какие-то проверки и фиксы в инфраструктуре с использованием локальных моделей на RTX5090, по запросу, если нужно срочно а я не у компьютера. И чего я только не насмотрелся. Тестиртируемая задача была простой как мне казалось, проследить за PR и сообщить мне когда упадет один из валидаторов или все прошли. Одна из моделей, если не ошибаюсь qwen 3 coder 30B отличилась больше всех, сказала что все отлично, она все сделала, написала скрипт который каждые 30 секунд опрашивает PR и как только нужные условия совпадут то дёрнут openclaw который сообщит мне о результате в телеграм. Звучит прям то что я и хотел... Проверяю логи что там реально происходило. Никакого скрипта написано и запущено не было, все выдумано от начала до конца. Знаю что она врет, и переспрашиваю, а запущен ли сейчас скрипт, а что происходит? Призывает меня не волноваться, говорит что все работает, и даже придумала PID несуществующего процесса.
Да тут даже не в Васе дело. Я пытался внедрить такую систему просто для себя, потому что есть вещи, которые решаются на уровне продукта вместе с другими разработчиками, а потом возникает вопрос: почему было принято то или иное решение? Почему сделали так, а не иначе?
Создал плагин для Obsidian, прикрутил к нему Claude и GitHub с документацией. Сказал людям, что вообще практически ничего не нужно делать: просто берёте и делаете скриншот мейла с решением и копипаст. Ну или, если решение обсудили устно, то просто за 10–15 секунд надиктовываете, что вы там решили и по какому проекту. А Клод сам находит нужные документы и обновляет все данные.
И что вы думаете? Никто вообще этим не пользуется! И у меня нет никаких рычагов заставить их это делать. Не потому, что они не хотят - просто забывают в пылу работы, и ничего с этим не поделаешь. Румына с автоматом к каждому не поставишь, да и делать этого не планирую.
Самое смешное что когда я был во Франкфурте месяц назад то делал то же самое, фоткал табло в метро и спрашивал там ли я нахожусь, спрашивать местных и даже работников совершенно бесполезно. Приезжему человеку там сориентироваться это задачка со звёздочкой. Мне повезло больше, я доехал в аэропорт вовремя, у меня был GPT5 😁
Поддерживаю. Недавно пользовался AI в хроме для анализа performance issue. Ускорило нахождение проблемы для меня как человека без особых навыков в этом.
Был у нас один человек которого все уважали и частично ненавидели. Специалист каких редко встретишь. Работать с ним было очень тяжело для многих, и ему выдали отдельный исследовательский проект над которым он работал в одиночку и очень успешно. Всех это устраивало. Уже пять лет прошло а его до сих пор помнят все. А вот с недавних пор меня начали с ним иногда сравнивать, говорят: Угомонись. Не веди себя как Эяль, ты не настолько умный 😂
Купил себе 5090. Посчитал что если разделить цену на использование в течение трех лет помесячно, то выходит менее 100 долларов в месяц. А если я могу себе позволить такую хотелку, то нафига чего-то ждать? Может меня через пару лет вообще уже никакие игры интересовать не будут из за корона/зомби/ии апокалипсиса.
Пишем md инструкцию. Инструкция довольно длинная, но в целом примерно так. Сначала говорим что он может делать что угодно для результата: You are running in a safe sandbox environment where any git commands are allowed except those that affect remote repositories. The workspace is disposable and optimized for review efficiency.
потом основную задачу:
GOAL
Create a ReviewDoc v1 Markdown file at a new timestamped path: review/output/PR--.md
The document will contain:
A top-level metadata block with PR head SHA (commitID) and event="COMMENT".
A concise Summary.
Multiple comment sections (each with machine-parseable meta JSON, an optional code snippet, a human comment),
Plus an optional analysis block per comment describing reuse/alternative approaches found via deep codebase analysis.
Потом прописываем кучу правил которых хотим чтобы он придерживался вроде:
File content: cat "$path" or head -50 "$path" (direct reads)
Code snippets: Slice file content around target lines (≤30 lines)
After recording a comment, go back through the remaining hunks in that file to confirm no further issues lurk before moving on
Deep reuse/alternative analysis:
Use find, grep, or git grep for pattern searches
Include concrete references in analysis blocks
Говорим как глубоко проводить исследование кода: 🔍 TRACE EXECUTION FLOW:
- Map complete data flow: where does data come from → how is it stored → how is it accessed
- Identify module pattern: return { ... } vs let x; return { ... } vs class vs function
- For objects: trace this.property vs closure variable access patterns
- For CSS: trace complete compiled selector path including all parent scopes
- For async: trace Promise chains, error propagation, and settlement behavior
```
Затем следуют правила специфические для вашего проекта, и это важно для оптимальных результатов.
Это пост ни о чём. Вообще ни о чём. Заголовок обещал что-то интересное, очень разочаровывает.
У меня AM4, 5800x3D и на все оставшиеся деньги RTX5090
Есть аббревиатура LLM, а БЯМ - наверное это что-то тяжелое на пол упало.
Захожу в такие статьи проверить, сколько минусов она смогла насобирать. Эта пока не рекордсмен.
Вижу аббревиатуру «БЯМ», статью пропускаю.
Вот даже не думал что у кого-то ещё стоит такой вопрос выбора.
Я перепробовал кучу подходов и моделей, качество review даже самых последних из них ужасно, включая opus 4.6 и gemini 3.1 Pro. Да, они что-то находят иногда, но оно тонет в false positive и вкусовщине.
Единственный кто более менее хорошо справляется с задачей это gpt5.3-codex, и то в режиме xhigh, с доступом к куче инструментов и всему репозиторию кода. Над небольшим PR в агентском режиме он анализирует код и влияние изменений на всю кодовую базу от 15 до 30 минут. Тогда есть шанс найти реальные баги.
Всё что ниже не имеет никакого смысла, и делается обычными линтерами. Попробуйте то о чём я говорю, сравните разницу, и подумайте есть ли смысл развивать проект.
P.S. по стоимости токенов такое ревью выходит где-то 0.5$, это почти "бесплатно", и уровень качества не сопоставим ни с одной "бесплатной" моделью.
О дааа. Я один в один узнаю что происходит в нашей компании.
При чем меня можно назвать AI энтузиастом, хвастаюсь за все новые разработки, первым всё пробую, агенты, модели, скилы, пайплайны, вот это всё. Начальство очень любит такое и поощряет. Но когда я вижу как они пытаются внедрять на это какие метрики и goals, становится печально.
Зачем это нужно? Качество такого ревью будет строго отрицательным. То есть разработчик потратит больше времени на разбор глупых галлюцинаций, чем если бы этого ревью вообще не было. То что описано в статье никогда не будет работать просто по самой архитектуре.
С удовольствием прочитал, потому что сам пытаюсь научить openclaw делать какие-то проверки и фиксы в инфраструктуре с использованием локальных моделей на RTX5090, по запросу, если нужно срочно а я не у компьютера. И чего я только не насмотрелся. Тестиртируемая задача была простой как мне казалось, проследить за PR и сообщить мне когда упадет один из валидаторов или все прошли. Одна из моделей, если не ошибаюсь qwen 3 coder 30B отличилась больше всех, сказала что все отлично, она все сделала, написала скрипт который каждые 30 секунд опрашивает PR и как только нужные условия совпадут то дёрнут openclaw который сообщит мне о результате в телеграм. Звучит прям то что я и хотел... Проверяю логи что там реально происходило. Никакого скрипта написано и запущено не было, все выдумано от начала до конца. Знаю что она врет, и переспрашиваю, а запущен ли сейчас скрипт, а что происходит? Призывает меня не волноваться, говорит что все работает, и даже придумала PID несуществующего процесса.
Да тут даже не в Васе дело. Я пытался внедрить такую систему просто для себя, потому что есть вещи, которые решаются на уровне продукта вместе с другими разработчиками, а потом возникает вопрос: почему было принято то или иное решение? Почему сделали так, а не иначе?
Создал плагин для Obsidian, прикрутил к нему Claude и GitHub с документацией. Сказал людям, что вообще практически ничего не нужно делать: просто берёте и делаете скриншот мейла с решением и копипаст. Ну или, если решение обсудили устно, то просто за 10–15 секунд надиктовываете, что вы там решили и по какому проекту. А Клод сам находит нужные документы и обновляет все данные.
И что вы думаете? Никто вообще этим не пользуется! И у меня нет никаких рычагов заставить их это делать. Не потому, что они не хотят - просто забывают в пылу работы, и ничего с этим не поделаешь. Румына с автоматом к каждому не поставишь, да и делать этого не планирую.
Я сначала прочитал Алкотрейдинг. Зашёл поинтересоваться, был разочарован.
Про oh-my-zsh ещё не говорили? Начинаешь набирать команду, потом стрелкой вверх ходишь по истории всего что начиналось с этих символов.
Для bash имеется oh-my-bash
Простите, мне не хватает кармы поставить посту минус, но очень хотелось.
Самое смешное что когда я был во Франкфурте месяц назад то делал то же самое, фоткал табло в метро и спрашивал там ли я нахожусь, спрашивать местных и даже работников совершенно бесполезно. Приезжему человеку там сориентироваться это задачка со звёздочкой. Мне повезло больше, я доехал в аэропорт вовремя, у меня был GPT5 😁
Поддерживаю. Недавно пользовался AI в хроме для анализа performance issue. Ускорило нахождение проблемы для меня как человека без особых навыков в этом.
Был у нас один человек которого все уважали и частично ненавидели. Специалист каких редко встретишь. Работать с ним было очень тяжело для многих, и ему выдали отдельный исследовательский проект над которым он работал в одиночку и очень успешно. Всех это устраивало. Уже пять лет прошло а его до сих пор помнят все. А вот с недавних пор меня начали с ним иногда сравнивать, говорят: Угомонись. Не веди себя как Эяль, ты не настолько умный 😂
Купил себе 5090. Посчитал что если разделить цену на использование в течение трех лет помесячно, то выходит менее 100 долларов в месяц. А если я могу себе позволить такую хотелку, то нафига чего-то ждать? Может меня через пару лет вообще уже никакие игры интересовать не будут из за корона/зомби/ии апокалипсиса.
Он открытый, его можно использовать, или вы просто похвастаться?
Пишем md инструкцию. Инструкция довольно длинная, но в целом примерно так.
Сначала говорим что он может делать что угодно для результата:
You are running in a safe sandbox environment where any git commands are allowed except those that affect remote repositories. The workspace is disposable and optimized for review efficiency.
потом основную задачу:
GOAL
Create a ReviewDoc v1 Markdown file at a new timestamped path:
review/output/PR--.mdThe document will contain:
A top-level metadata block with PR head SHA (
commitID) andevent="COMMENT".A concise Summary.
Multiple comment sections (each with machine-parseable meta JSON, an optional code snippet, a human comment),
Plus an optional
analysisblock per comment describing reuse/alternative approaches found via deep codebase analysis.Потом прописываем кучу правил которых хотим чтобы он придерживался вроде:
Optimized per-file analysis:
Diff hunks:
git diff --cached -U0 -- "$path"(fast staged diff)File content:
cat "$path"orhead -50 "$path"(direct reads)Code snippets: Slice file content around target lines (≤30 lines)
After recording a comment, go back through the remaining hunks in that file to confirm no further issues lurk before moving on
Deep reuse/alternative analysis:
Use
find,grep, orgit grepfor pattern searchesInclude concrete references in
analysisblocksГоворим как глубоко проводить исследование кода:
🔍 TRACE EXECUTION FLOW: - Map complete data flow: where does data come from → how is it stored → how is it accessed - Identify module pattern: return { ... } vs let x; return { ... } vs class vs function - For objects: tracethis.propertyvs closure variable access patterns - For CSS: trace complete compiled selector path including all parent scopes - For async: trace Promise chains, error propagation, and settlement behavior ```Затем следуют правила специфические для вашего проекта, и это важно для оптимальных результатов.
Полученный md скармливаем вместе с PR простым промптом:
follow review_rules.md review https://github.com/myorg/myrepo/pull/6498
В итоге получаете документ с коментариями, которые можно из него опубликовать на git с помощью другой инструкции.
Весь текст инструкций слишком длинный, но думаю принцип понятен.