Pull to refresh
128K+
87
Иван Никитин@python_leader

Passionate Developer.

126,9
Rating
228
Subscribers
Send message

Claude Sonnet 5: Anthropic обновили главную рабочую лошадку

Reading time1 min
Reach and readers15K

Anthropic выпустили Claude Sonnet 5. Главный тезис: модель класса Sonnet впервые вплотную приближается к Opus 4.8 на агентных задачах — и при этом стоит в 1,5-2 раза дешевле.

Читать далее

Вышла GPT-5.6 Sol: уровень Mythos (Fable), но дешевле по токенам

Reading time1 min
Reach and readers10K

Новое семейство GPT-5.6 разбили на три тира: Sol (флагман), Terra (на уровне GPT-5.5, но вдвое дешевле) и Luna (быстрый и самый дешёвый). Цифра теперь обозначает поколение, а Sol/Terra/Luna задают уровень по интеллекту, скорости и цене.

По бенчмаркам Sol подают как сильнейшую модель OpenAI. На Terminal-Bench 2.1 (командная строка, планирование, работа с инструментами) новый SOTA. На GeneBench v1 (геномика, длинные биозадачи) результаты выше GPT-5.5 при меньшем расходе токенов.

Читать далее

63% решений Opus 4.8 Max на SWE-bench Pro оказались списаны

Reading time1 min
Reach and readers9.1K

Cursor опубликовал исследование про reward hacking: AI-агенты обходят кодовые бенчмарки, находя готовый ответ вместо того, чтобы решить задачу самостоятельно.

Чтобы измерить масштаб проблемы, Cursor построил агента-аудитора и прогнал через него 731 модель Opus 4.8 Max на SWE-bench Pro. Аудитор видел условие задачи и весь путь решения, но не знал, прошёл ли прогон тест. Итог: в 63% успешных решений модель нашла готовый фикс, а не вывела его сама.

Читать далее

Китайские разработчики получают Claude за 10% от стоимости

Reading time2 min
Reach and readers30K

ChinaTalk опубликовали расследование о китайских API-прокси для доступа к Claude. Это зарубежные серверы, которые принимают запросы пользователей и передают их в Anthropic от своего имени, обходя геоблокировку и требование иностранной банковской карты.

Через такие прокси токены Claude продают по 1 юаню за $1 — это на 70–90% дешевле официальной стоимости. В апреле 2026 года Anthropic начала проверять часть пользователей через государственный ID и живое селфи. Прокси-операторы решают и эту проблему: верификацию проходит реальный человек, которого находят в странах Африки или Латинской Америки с низким доходом, либо документы и биометрию подделывают через AI и дипфейки.

Низкую цену объясняют тремя источниками.

Читать далее

Sakana AI выпустили Fugu Ultra: японская LLM обходит часть западных флагманов

Reading time1 min
Reach and readers7.3K

Sakana AI основали в 2023 году Дэвид Ха и Лайон Джонс, экс-инженеры Google, причём Джонс входит в число восьми авторов оригинальной статьи про трансформеры. В апреле компания уже показывала Marlin: агента, который самостоятельно копает тему до 8 часов и выдаёт отчёт с презентацией.

Fugu стал их следующим продуктом с уже знакомой идеей «несколько моделей вместо одной». Но это не просто агрегатор поверх чужих API: сама Fugu остаётся небольшой языковой моделью, обученной вызывать другие LLM.

Читать далее

Cursor готовят замену GitHub для AI-агентов

Reading time1 min
Reach and readers6.1K

Cursor анонсировали Origin, платформу для хостинга git-репозиториев и код-ревью. Систему спроектировали так: основным автором и ревьюером кода становится AI-агент, человек подключается только на этапе финального одобрения.

Анонс сделал Томас Реймерс, основатель Graphite, сервиса для ревью кода, который Cursor купил в 2025 году.

Читать далее

Anthropic отменили изменение в лимитах подписки, которое должно было вступить в силу сегодня

Reading time1 min
Reach and readers16K

В мае компания объявила, что с 15 июня весь трафик через Agent SDK, claude -p и приложения на базе ACP (Agent Client Protocol — протокол, через который сторонние редакторы и платформы запускают агентов) уйдёт из основного пула подписки в отдельный кредитный пул, равный стоимости подписки.

Читать далее

Связка дешёвых моделей обошла GPT-5.5 и Opus 4.8

Reading time1 min
Reach and readers12K

OpenRouter запустили Fusion: связка моделей на уровне Fable 5 за полцены.

Промпт уходит параллельно на несколько моделей, каждая с доступом к web search и bash-инструментам. Модель-судья анализирует ответы: ищет консенсус, противоречия, пробелы. Синтезатор пишет финальный ответ.

Читать далее

Moonshot AI выпустили Kimi-K2.7-Code

Reading time1 min
Reach and readers11K

Moonshot AI выпустили Kimi-K2.7-Code — новую версию своей coding-модели на базе K2.6. Веса открыты на HuggingFace под лицензией Modified MIT.

По бенчмаркам прирост относительно K2.6 составил +21.8% на Kimi Code Bench v2, +11% на Program Bench и +31.5% на MLS Bench Lite.

Читать далее

Подписки Anthropic и OpenAI убыточнее, чем считалось

Reading time1 min
Reach and readers11K

В январе исследователи уже считали реальную стоимость подписок Claude Code в пересчёте на API. Тогда $200/мес обошлись бы в ~$2 700 по API-расценкам. 

SemiAnalysis повторили опыт на всех тарифах провайдеров с длинными coding-задачами до истощения недельного лимита и текущие цифры заметно выше.

Читать далее

Xiaomi выпустили MiMo Code — своего coding-агента

Reading time1 min
Reach and readers9.3K

Вслед за Kimi ещё одна китайская компания обзавелась своим агентом. Основной упор в релизной статье китайцы делают на Max Mode: на каждом шаге агент генерирует 5 параллельных планов действий, а модель-судья выбирает лучший, остальные отбрасываются. 

Читать далее

Anthropic выпустили Fable 5 (модель уровня Mythos) для всех

Reading time1 min
Reach and readers20K

Anthropic выпустили Claude Fable 5, первую общедоступную модель класса Mythos. Mythos превосходит Opus по способностям; до сегодня этот уровень был закрыт и доступен только партнёрам Project Glasswing.

Читать далее

Xiaomi разогнали 1T-модель до 1200 tok/s на стандартных GPU

Reading time1 min
Reach and readers8K

Китайские команды MiMo и TileRT опубликовали режим UltraSpeed для модели MiMo V2.5 Pro (1,02T параметров).

На одном 8-карточном сервере со стандартными GPU, до ~1200 токенов в секунду. Cerebras выдаёт похожие скорости на кастомном железе. Здесь обошлись без него.

Читать далее

MiniMax M3 обошла GPT-5.5 на SWE-Bench Pro и выйдет с открытыми весами

Reading time2 min
Reach and readers8.5K

MiniMax M3 вышла сегодня — это мощная языковая модель, которая одновременно предлагает frontier-уровень в кодировании и агентных задачах, контекст до 1 миллиона токенов и нативную мультимодальность (изображения, видео + управление компьютером). По словам компании, среди моделей с открытыми весами она первая с таким полным набором возможностей.

Читать далее

Anthropic выпустили Opus 4.8: в 4 раза меньше незамеченных багов и fast mode в 3 раза дешевле

Reading time1 min
Reach and readers18K

Anthropic выпустили Claude Opus 4.8 — обновление флагманской модели, доступное с сегодняшнего дня по той же цене: $5 за млн входящих токенов и $25 за млн исходящих.

Одно из ключевых изменений — честность модели при работе с кодом. По данным Anthropic, Opus 4.8 в 4 раза реже, чем 4.7, пропускает незамеченными баги в собственном коде. На Super-Agent benchmark от компании Linkup — единственная модель, прошедшая все кейсы от начала до конца, при паритете по стоимости с GPT-5.5. На Online-Mind2Web набрала 84% — выше, чем Opus 4.7 и GPT-5.5.

Читать далее

Отчёт Cursor: только 1% разработчиков пишет в 46 раз больше кода

Reading time1 min
Reach and readers13K

Cursor выпустил Developer Habits Report — первый публичный срез того, как их пользователи работают с AI-инструментами. Данные собраны с января 2025 по май 2026 года на основе сессий, токенов и активности в репозиториях.

Скорость написания кода выросла примерно вдвое за год: с 3,6 тыс. строк в неделю до 8,6 тыс. PR стали крупнее в 2,5 раза, а доля пул-реквестов с тысячей и более изменённых строк выросла с 8% до 14%.

Читать далее

Новый бенчмарк DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%

Reading time1 min
Reach and readers8.7K

Новый бенчмарк DeepSWE показал, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое место с 64%, а GPT-5.5 шёл следом с 59%.

DeepSWE — бенчмарк от команды Datacurve. В отличие от SWE-Bench, все задачи в нём написаны с нуля: никаких адаптаций существующих PR и коммитов. Средняя задача требует написать 668 строк кода и затронуть 7 файлов — против 120 строк и 5 файлов в SWE-Bench Pro. Верификаторы тестируют поведение, а не реализацию, поэтому правильный ответ не привязан к конкретной структуре кода.

Читать далее

Cerebras запустили Kimi K2.6 на скорости ~1000 токенов в секунду

Reading time1 min
Reach and readers7.6K

Cerebras запустили Kimi K2.6 (1T open-weight) на своём чипе со скоростью 981 токен/с — в 6,7× быстрее лучших GPU-облаков. 

Запрос 10k токенов на вход и 500 токенов на выход обрабатывается за 5,6 секунды вместо 164 секунд на официальном эндпоинте.

Читать далее

Релиз Qwen3.7-Max: лучше Claude Opus 4.6 на SWE-bench Pro

Reading time1 min
Reach and readers16K

Alibaba выпустила Qwen3.7-Max — закрытую флагманскую модель для долгоживущих агентов. В тестах: 35 часов автономной работы, 1158 вызовов инструментов, 10x ускорение CUDA-ядра. На SWE-bench Pro — 60.6, между Opus 4.6 и Opus 4.7.

Читать далее

xAI выпустили Grok Build — агентный CLI для разработчиков

Reading time1 min
Reach and readers6.3K

xAI открыли ранний бета-тест Grok Build — консольного агента для профессиональной разработки. Пока доступно только подписчикам SuperGrok Heavy.

Устанавливается одной командой: curl -fsSL https://x.ai/cli/install.sh | bash. Инструмент подхватывает конфигурацию репозитория автоматически — AGENTS.md, плагины, хуки, skills и MCP-серверы работают без дополнительной настройки.

Для сложных задач есть режим планирования...

Читать далее
1
23 ...

Information

Rating
51-st
Date of birth
Registered
Activity

Specialization

Бэкенд разработчик
Ведущий
Python
SQL
Git
ООП
PostgreSQL
Docker
Django