kitbit28 янв в 23:22

# Vibe Coding под прицелом: Claude Opus 4.5 против китайского GLM-4.7 в бою за транскрибацию GigaAM

Средний

10 мин

29K

Управление разработкой * Анализ и проектирование систем * Управление проектами *

Обзор

+33

Комментарии 49

K0Jlya9 28 янв в 23:50

За один вечер я реализовал транскрибер, на который раньше ушел бы целый месяц.

Мелкая утилитка на 1500 строк на питоне? Причем большая часть кода - копипаста и вообще ненужные на таком мелком проекте вещи - тесты, обработка ошибок итп? Целый месяц?

https://habr.com/ru/articles/979038/#comment_29311836

kitbit 29 янв в 00:11

…и да, видимо, 2100 строк, по два таких одновременно проекта, в двух разных ide с diarization=“pyannote”, num_speakers, merge_same_speaker, min_segment_gap и progress callback в batch-режиме для кого-то действительно выглядят как «1500 строк копипасты».

Статья про сравнение двух LLM-инструментов, а проект — побочный артефакт эксперимента.

Открывать репо — это слишком сложно, проще сразу в комментариях раздать экспертное мнение. Уважаю такой подход 8) Доктор Шаус

fermentum 29 янв в 15:48

Очень похоже, что вы тестировали на типовой задаче, которую сетки уже не раз решали.

Я буквально тоже самое на днях делал в Perplexity Labs, который сходу выдал рабочий скрипт с разделением по спикерам с помощью модели Whisper Large v3 turbo. Больше времени заняли настройки зависимостей, чувствительных к версиям других модулей.

kiff2007200 29 янв в 23:50

У вас слишком большие ожидания от сотрудников сбера.

powerman 29 янв в 00:16

А почему именно Opus? Sonnet вроде бы не принципиально слабее, но в разы дешевле. Было бы интересно сравнить и его тоже - высока вероятность, что получим 80+ очков при стоимости сравнимой с GLM-4.7.

MrBrooks 29 янв в 10:30

Принципиально слабее)

Самый простой пример. Соннет слился, когда я его попросил посчитать количество новых строк кода в 5 коммитах за весь день в Plastic CSM (Unity VS). Он просто не смог понять, как с ним работать и постоянно переключался на попытки найти в проекте гит.

При этом опус догнал сам, что это пластик, не мог найти к нему подхода и пошел искать справку в инете. Выяснил, как надо спрашивать за команды пластика и начал, Карл, в консоли гонять команды и спрашивать, как они работают.

Потом составил список команд, прошёлся по коммитам, собрал всю инфу и выкатил ее.

MrZorg 29 янв в 10:32

Соннет прямолинейнее в части "сделаю что сказали, похожим на код рядом". Например впихнуть транзакцию в простую функцию с select потому что в функциях до и после она была. Если прописывать детально или, как и тут упоминалось, планировать с Opus то потом приемлемо.

RedWolf 29 янв в 00:38

Слишком много ненужных громких и пафосных слов в конце, не имеющих отношения к статье.

itmind 29 янв в 02:05

Вам не хватило подписки Claude за 100$ или за 200$? Если агент заменяет разработчика с зп 2000$, то это экономия на ФОТ компании в 10 раз

Robyn_rock 29 янв в 06:02

Судя по тексту за 20. За 100 высадить за 6 промптов подписку невозможно.

kitbit 29 янв в 07:04

Для сравнения использовал Claude Opus4.5 в Cursor, Cursor - платная подписка. В целом Ckaude использую в режиме чата подписка 20$, но знакомые рассказывают что даже за 200$/мес упираются так-же в лимиты. Поэтому посчитал необходимым проверять другие инструменты. GLM4.7 за свои 3$ в месяц очень достойно + можно вставлять ключь в claude-code, использовать там не упираясь в лимит.

inetstar 29 янв в 08:00

А как вы добились того, что у вас на Опус в Курсор появились обновляемые лимиты? Я после высаживания лимита за несколько часов потом не наблюдаю обновления лимитов.

kitbit 29 янв в 10:02

Если честно сам не понимаю политику Cursor в плане лимитов, когда они обновляются, что будет если я истратил при годовой подписке. Нужна пояснительная бригада.

В то время как у GLM понятная механика, есть понятный прогресс бар лимитов - на 5 часовую квоту, все прозрачно.

wolframko 30 янв в 14:18

У Cursor ситуация хуже, чем у Claude Code. Cursor предлагает три варианта подписки: за 20, 60 и 200 долларов в месяц, и гарантирует 20, 70, 400 долларов пользования соответственно. На практике же пользование выходит в два раза выше, то есть 40, 150-200, 800-1000 долларов соответственно. От Claude за те же деньги пользы значительно больше: там лимиты привязаны к скрытому количеству токенов на каждые 5 часов и на неделю. У Cursor же лимит жестко ограничен суммой на месяц. Если потратить всё в первый день, то до конца месяца придется либо отдыхать, либо переплачивать по тарифам on-demand. Судя по приложенной мною второй ссылке, claude code дает 163, 1354, 2708 долларов пользования за три тира подписки, если выжимать лимиты в максимум.

Tsimur_S 29 янв в 10:48

Если агент заменяет разработчика с зп 2000$

Тут как в том анекдоте:

- Папа, я бежал за трамваем и сэкономил пять копеек на проезд!

- Дурак, лучше бы бежал за такси и сэкономил два рубля!

а) ЗП это параметр варьируемый, во всяких кремниевых долинах вам за $2000 даже в кофе не плюнут не то что разрабатывать что-то там.

б) Навык разработчиков за $2000 это параметр тоже сильно варьируемый, а Опус он везде Опус.

Jacov911 29 янв в 05:18

А просто взять подписку за 100 и наводить за час не позволила жаба?

И зачем использовать опус, если нет денег, свежий соннет решил бы эту простую задачу не хуже, и в рамках стандартного тарифа за 20. И из claude code. (Да там не обязательно платить за токегы, можно расходовать лимиты подписки)

Lashadkach 29 янв в 05:44

Спасибо автору за изучение альтернатив. При системном использовании нейронок цена действительно космическая, приходится сокращать количество промптов и исправлять местами код ручками, не хватает альтернатив подешевле как воздуха

FSmile 29 янв в 06:31

Нейрослоп статья

Сравнение Так себе.

Altair2021 29 янв в 07:05

Кстати если проект или статья написанны LLM то это легко палиться если в ней есть много emoji или длинные тире «-» берите на заметку.

Автор, не надо гнать на LLM за то, что они знают правила пунктуации в русском языке. И то, что стоит в Вас в качестве тире -- никак не "тире", а дефис, который должен стоять только между словами, без пробелов. На хабре уже не раз статьи были на эту тему, например Тире минус дефис. Или размер имеет значение / Хабр .

Замечу, что если Вам лень ставить тире -- можно поставить несколько дефисов подряд (два-три). Некоторые редакторы текста по дефолту заменяют их на тире. Если не заменяют -- то даже так куда правильнее, чем пихать везде дефис.

Ну и у Вас в этом же предложении еще несколько ошибок:

нужна запятая после "кстати"
нужна запятая перед "то"
нужна запятая перед "если в ней"
палиться (что сделать?) -> палится (что делает?)
нужно длинное тире перед "берите на заметку"
написанны -> написаны

Признак сгенерированного LLM текста не само наличие длинных тире, а использование их без пробелов (первый попавшийся под руку пример: "...disturbance in the Force—the awakening of a Dyad..."). Не надо говорить на грамотный текст, что он сгенерирован LLM, только потому, что там правильная пунктуация\грамматика.

MountainGoat 29 янв в 09:47

не само наличие длинных тире, а использование их без пробелов

Причём это тоже не ошибка, а правило типографики. Только не Российской.

2medic 29 янв в 10:57

А также присутствует вежливость, хороший слог и стиль.

kitbit 29 янв в 12:31

Делал эту статью в том числе с помощью ллм, мои мысли, мой эксперимент сравнения двух инструментов, причесанные ллм-кой)

kostoms 29 янв в 13:24

Всё правильно в этом плане сделали, не слушайте придурков-свидетелей LLM :)

Altair2021 29 янв в 21:20

К самому исследованию никакаих претензий -- все очень познавательно, спасибо) Основная претензия -- ко мнению "если текст написан грамотно (хотя бы пунктуационно), то явно сгенерирован LLM". Довольно странный тренд последнего времени (может быть, года?) в статьях/комментариях к статьям, который, по сути, пытается обесценить знания правил русского языка.

Pontific 29 янв в 19:26

Не отбивать тире пробелами — это американский стиль. Видимо, нейронки пытаются весь мир к такому стиль приучить.

Altair2021 29 янв в 21:08

Не знал и не обращал внимания, спасибо) Слишком привык к русскому варианту.

А ведь действительно: на русском LLMки выделяют тире пробелами!

Вывод один: LLMки в плане пунктуации текст пишут лучше большинства из нас. Разве что орфография на русском у некоторых хромает.

CurlyBoy 29 янв в 07:08

Пожалуйста продолжайте юзать не правильные инструменты и писать статьи что всё плохо и дорого! Это нам очень помогает

kitbit 29 янв в 07:12

Какие инструменты есть правильные?

Calculater 29 янв в 12:02

Очевидно, это тайное знание, исключительно для посвященных /s

dibu28 29 янв в 07:53

Сравните, пожалуйста, ещё Codex от OpenAI и Gemini 3 Pro от Google.

blackyblack 29 янв в 08:45

Можно было просто использовать Github Copilot агента и получить 100 запросов к Opus 4.5 за 100 баксов в год (примерно 8 долларов в месяц). Сразу за эти деньги получили бы код ревью, автокомплит в IDE и выбор из трех десятков моделей.

kitbit 29 янв в 09:28

100 запросов каждый месяц или всего 100 в год?

blackyblack 29 янв в 10:44

100 каждый месяц. Точнее 300 каждый месяц, но опус жрет 3Х запросы.

lacost21 29 янв в 09:33

Прикол Claude еще и в cli, используя ее через api она не будет такой эффективной

blackyblack 29 янв в 10:51

Есть какие-то пруфы, что Claude CLI эффективнее? У копилота тоже есть CLI (правда я не пробовал его), а также сразу из коробки MCP Playwright и Github.

lacost21 29 янв в 10:54

По опыту могу сказать cli эффективнее. Расписывать плюсы и минусы не хочется

andrew4x 29 янв в 09:27

Интересное сравнение, ещё бы добавил в обзор один важный момент - как модель справляется с добавлением фич в готовый код. Тут многие, тот же codex-max, да и opus не безгрешен, в какой-то момент начинают чудить и делать совершенно глупые ошибки, типа той функции со start, оставлять артефакты в кодe, "забывать", зачем был сделан предыдущий фикс, пытаться многократно исправить то, что и так уже работает. К примеру, в одном случае Opus выкинул целиком из приложения библиотеку отрисовки графиков и переписал под другую, потому что думал, что она не работает, хотя его же тесты показывали прямо обратное

Qwest_Prozto 29 янв в 12:54

Мне кажется, что даже если модель умная и умеет что-либо делать, лучше не оставлять ее без подробного запроса и четких рамок, что мы делаем вот прямо сейчас, когда нужно остановиться. У всех Клаудов тем более есть проблемки по контекстному окну и RAG, в сравнении с той же Gemini где это почти бесконечно.

Vedomir 29 янв в 11:18

А не рассматривали Qwen3-max-thinking? У них недавно обновление вышло, в котором они заявляют, что очень близки к Chat-GPT и Claude или даже немного превосходят, ну и в целом вроде серьезная модель.

yrub 30 янв в 19:27

раньше пользовался Qwen2.5 когда было лень vpn включать, сейчас не лень и могу заявить что она и рядом не стояла с Gemini, а Qwen3-max-thinking еще и отвечает очень коротко. в общем только для самых простых задач

kostoms 29 янв в 13:29

Не понял смысла тестировать "Claude Code + GLM-4.7" vs "Cursor + Opus 4.5": почему не использовать Claude Code c Claude Opus? Или хотя бы обе с одной IDE.

Существует поверье, что среда от разработчика LLM лучше работает с его моделями, чем IDE сторонних производителей.

Noizefan 29 янв в 17:19

и не только поверье, а и элементарная логика - в любом агенте или IDE есть свой огромный (и это - отдельный недостаток почти всех существующих решений) системный промпт, который очень нехило влияет на итоговый результат.

Любого рода подобные необъективные сравнения демонстрируют лишь навык автора добиваться от LLM того, чего он хочет, уж никак не качества самих LLM или обёрток над ними.

PKLab 29 янв в 14:53

glm(api.z.ai) часто проксипасит запросы напрямую в клауде, возможно вы просто сравнивали Claude с Claude

4external 29 янв в 15:05

а где подробнее про это прочитать?

PKLab 29 янв в 15:08

хз, это что я наблюдаю последние 4 дня. 27го glm стал слать мусор в think и через пару минут модель стала 1к1 по поведению и выводу как кладе. толь это дисциляция на клиентских запросах, либо А\Б тест такой, не знаю. я искал упоминания о таком в интернете, на редите не нашел

stolbus 30 янв в 05:35

ПромПт.

coms20 30 янв в 12:33

На горизонте маячит Kimi 2.5 от Moonshot AI

Почему маячит? Я уже его изучаю с точки зрения работы с кодом

Точная дата релиза:

26 января 2026 — публикация весов на Hugging Face и NVIDIA Build
27 января 2026 — официальный анонс Moonshot AI и запуск в веб-интерфейсе kimi.com

coms20 30 янв в 22:03

Нормально работает, только сильно медленно и не умеет работать в консоли.

Понятно, что не такая крутая, как Опус, но черновую работу на неё можно скинуть без проблем

anydasa 31 янв в 23:35

Долго сидел на roocode. Когда вышел антигравити от гугла, попробовал (т.к. была уже подписка pro). В антигравити есть опус. Лимиты лостигал быстро, но опус так мне понравился, что я перешл на ультра. Учитывая что кроме AI еще получаешь кучу всего, места в гугле, премиум ютуб, и др. Не жалею. Лимит намного больше. Антигравити не такой удобный как roocode, не так много возможностей, но с опусом впринципе все недостатки закрывает.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий