DeepSeek v4 vs GLM 5.1: сравнительный бенчмарк агентов на реальных задачах разработки

На нашем замере DeepSeek v4 оказался примерно в полтора раза медленнее GLM 5.1 по скорости генерации - 29.81 против 47.65 токенов в секунду.

Искусство создания компьютерных программ

На нашем замере DeepSeek v4 оказался примерно в полтора раза медленнее GLM 5.1 по скорости генерации - 29.81 против 47.65 токенов в секунду.

С 1 июня GitHub переводит Copilot на usage-based оплату. Автодополнения кода остаются без лимитов, всё остальное — чат, агентные режимы, code review — тратит GitHub AI Credits по токенным расценкам.
Базовая цена подписки не меняется: Pro $10/мес, Pro+ $39. Кредиты включены на ту же сумму.
Для годовых планов: Sonnet 4.5 — с 1x до 6x, Sonnet 4.6 — до 9x, Opus 4.6 и 4.7 — до 27x. Годовые планы постепенно выводят из обращения. После окончания текущего годового периода пользователя переведут на Free или предложат перейти на monthly план.

OpenAI окончательно рассталась с отдельной кодинг-моделью Codex – во второй раз в своей истории. Как сообщил глава Developer Experience компании Роман Юэ, начиная с GPT-5.4, Codex и основная языковая модель были объединены в единую систему и с выходом GPT-5.5 отдельной линейки Codex не существует вовсе. Это значит, что GPT-5.3, выпущенная в начале февраля, стала последним самостоятельным релизом Codex.

🔥 До конца майских — Auto со скидкой 60% по минутам. Единая цена, Auto-режим и оркестрация: как Veai выбирает модель за вас

Прогнали на нашем интерактивном бенчмарке gpt-5.5 показывает заметно более надёжный профиль работы с инструментами и проверкой собственного результата, чем gpt-5.4.
По формальной проверке корректности результата gpt-5.5 успешно закрывает на 20% больше задач.
Самое наглядное — success rate инструментов.
У gpt-5.5 он держится на 100% почти везде: read_file 497/497, edit_file 71/71, run_configuration 71/71, search_file_by_name 111/111.
У gpt-5.4 на сопоставимых объёмах есть просадки — run_configuration 93.9%, search_file_by_name 96.3%, edit_file 98.9%.
С этим хорошо совпадает и ревью LLM-судей: gpt-5.5 точнее держит пути и аргументы инструментов (11 задач против 3) и аккуратнее доводит инструментальную проверку результата (13 против 8). По метрике ToolCalls итог — 0.81 против 0.72 в пользу gpt-5.5.
В проверке собственной работы картина похожая. По блоку «верификация и чтение результатов» судья отдаёт gpt-5.5 18 задач против 10, по безопасности правок — 9 против 6: то есть gpt-5.5 заметно реже сообщает «всё ок» при падающей сборке и реже сам ломает соседние модули. И ведёт он себя при этом ощутимо экономнее: те же 32 чата закрываются за 1183 вызова инструментов и 235 855 токенов, тогда как gpt-5.4 тратит на это 1436 вызовов и 337 493 токена. То есть gpt-5.4 чаще «дожимает» задачу количеством шагов, а gpt-5.5 — точностью первого подхода.
По остальным метрикам качества разница невелика, и тут есть любопытный момент: судьёй в этом сравнении выступал сам gpt-5.4. Известно, что в таких ситауациях стабильно проявляется self-preference bias — модель-судья охотнее ставит победу ответам в собственном стиле, формулировках и способе закрывать шаг.

Вышла версия Cursor 3.2 – в ней разработчики интегрировали три крупных нововведения: команду /multitask для параллельных запросов через асинхронных саб-агентов, улучшенные worktrees в окне агентов, а также поддержку multi-root workspaces для кросс-репозиторных изменений.

Привет, Хабр! На следующей неделе в Москве стартуют флагманские российские Java и QA конференции JPoint и Heisenbug Spring 2026. Приглашаем послушать доклады наших коллег и пообщаться с командой на стенде на JPoint. По традиции разыграем классный весенний мерч, ответим на ваши вопросы и покажем новые фичи агента из релиза Veai 5.9.

OpenAI выкатили новый флагманский GPT‑5.5 с улучшенным кодингом и более глубоким reasoning. Мы добавили его в Veai как доступную модель для агента.

На вайб-кодинговой платформе Lovable нашли уязвимость, которая позволяла завести бесплатный аккаунт и получить доступ к чужим данным, включая исходный код и истории чатов с ИИ. В компании сначала отрицали утечку, а потом переложили вину на bug bounty-платформу HackerOne.
О проблеме сообщил исследователь под ником weezerOSINT. Он заявил, что уведомил Loveable о баге более 48 дней назад через HackerOne, однако отчёт не стали рассматривать и закрыли как дубликат.

GPT-5.5 — это следующая модель после GPT-5.4, ориентированная прежде всего на агентную работу: многошаговые задачи, где модель планирует, использует инструменты и доводит работу до конца без постоянного участия пользователя.
На Terminal-Bench 2.0 (сложные командно-строковые сценарии с планированием и итерациями) модель показала 82.7% против 75.1% у GPT-5.4. На SWE-Bench Pro, который оценивает решение реальных GitHub-задач, — 58.6%. Примечательно, что этих результатов GPT-5.5 достигает при меньшем количестве токенов, чем предшественник.

22 апреля 2026 года состоялся релиз Nuitka 4.0. Это проект компилятора для трансляции скриптов на языке Python в представление на языке C, которое затем можно скомпилировать в исполняемый файл, использующий libpython для обеспечения максимальной совместимости с CPython. В программном решении используются штатные средства CPython для управления объектами.
Microsoft выпустила бета-версию TypeScript 7.0, внедрив ряд изменений, направленных на улучшение производительности, стабильности и совместимости. Компания объяснила, как установить её.
Компания «Диасофт» выпустила бесплатную версию Digital Q.Integration – интеграционной платформы, которая объединяет различные системы и упрощает обмен данными между ними. Платформа победила в рейтинге ESB-решений 2025 по версии аналитиков CNews и входит в экосистему low-code разработки микросервисных программных продуктов Digital Q.
Бесплатный дистрибутив Digital Q.Integration позволяет создавать и запускать интеграционные потоки, работать с брокерами сообщений и HTTP, использовать low-code инструменты для самостоятельной реализации интеграций, в том числе взаимодействия с 1С через протокол OData.
Бесплатная версия подходит для небольших компаний с ограниченным количеством интеграционных потоков (5-10 потоков) и проектов с низкой нагрузкой, а также для тестирования базового функционала крупными организациями и промышленными предприятиями. Это позволяет быстро и без бюрократических задержек ознакомиться с продуктом. В отличие от длительных согласований и ожидания доступа к демостендам, которые могут занимать несколько дней, пользователь может сразу скачать и установить дистрибутив на своей виртуальной машине.

Anthropic обновили страницу с тарифами: Claude Code теперь доступен только начиная с Max 5x за $100/месяц. Pro за $20 его больше не включает. Официального анонса не было.
Amol Avasare из Anthropic объяснил логику в треде на X. Год назад Max проектировался под интенсивный чат — без Claude Code, без Cowork, без долгих асинхронных агентов. После выхода Opus 4 всё изменилось: агентные сценарии стали повседневными, нагрузка на подписчика выросла, а текущие планы под это не рассчитывались.

77% разработчиков используют Spring Boot 3, Cursor — всего у 2%, а средняя желаемая зарплата — 500 000 ₽ в месяц.
Это были цифры за прошлый год. Сейчас картина уже другая: появились новые IDE, в повседневную работу вошли AI-агенты, вышли новые версии наших любимых фреймворка и языков. Ну и по зарплатам планка, очевидно, должна была сдвинуться — 700k уже звучит реалистичнее
Самый важный опрос тут: State Of Java 2026

По бенчмаркам модель держится рядом с закрытыми SOTA-моделями: SWE-Bench Pro — 58.6, SWE-Bench Verified — 80.2, топ среди open-source моделей. Сильные результаты и на BrowseComp и математических бенчах с Python.
Отдельная история из техблога: в ходе внутреннего тестирования агент на базе K2.6 получил задачу запустить Qwen3.5-0.8B на маке. Дефолтный инференс его не устроил, и он переписал его на Zig — языке, который не входит в стандартный набор. Результат: скорость выросла с 15 до 193 токенов/сек, что на 20% быстрее LM Studio. 4000+ вызовов инструментов, 14 итераций, 12 часов работы.

Уже в этот четверг Илья Кучмин (AI DevTools Lead) и Павел Кислов (Эксперт Spring АйО) проведут прямую трансляцию, на которой расскажут, как:
– ускорить разработку с AI-агентами (Claude, Codex, OpenCode, ...)
– снизить количество токенов во время решения рабочих задач
– и получать код, который не приходится переписывать вручную

Moonshot AI представила Kimi K2.6 — открытую модель, заточенную под длинные задачи в программировании и агентные сценарии. В компании утверждают, что новая версия лучше справляется с многошаговой работой: может дольше удерживать контекст, чаще корректно вызывать инструменты и эффективнее координировать несколько субагентов.

Опенсорсная модель Qwen3.6-35B-A3B, которая имеет архитектуру mixture-of-experts и была опубликована Alibaba 15 апреля, уверенно обошла недавнюю новинку от Google, Gemma 4-31B, в ключевых бенчмарках на агентное программирование и математическую логику.

Anthropic выкатили новую версию — мы не стали ждать и прогнали внутренний бенчмарк на боевых workflow: миграция, рефакторинг, тесты, документация.