Pull to refresh
128K+
69
Иван Никитин@python_leader

Passionate Developer.

52,4
Rating
155
Subscribers
Send message

Claude Code теперь автоматически запоминает контекст между сессиями

Reading time1 min
Reach and readers19K

Раньше при каждом запуске Claude Code начинал с чистого листа. Был файл CLAUDE.md, куда вы сами писали инструкции: какие команды использовать, какой стиль кода, как устроен проект. Но всё, что Claude узнавал в процессе работы, терялось после завершения сессии.

Теперь Claude сам записывает то, что узнаёт: паттерны проекта, решения багов, архитектурные особенности, ваши предпочтения. Всё это сохраняется в отдельную директорию ~/.claude/projects/<project>/memory/ и подгружается при следующем запуске.

Читать далее

Qwen 3.5 Medium — серия средних моделей, которые бьют прошлый флагман

Reading time1 min
Reach and readers11K

Alibaba выпустила серию средних моделей Qwen 3.5 с открытыми весами. Неделю назад вышел флагман на 397B параметров, а сегодня — модели поменьше: 27B, 35B и 122B. Главное здесь — модель на 35B параметров с 3B активными обходит по бенчмаркам прошлый флагман Qwen3-235B, который был в 7 раз тяжелее. Новая гибридная архитектура (Gated Delta Networks + sparse MoE) позволила сильно поднять и качество, и скорость инференса без наращивания размера.

Читать далее

Anthropic: DeepSeek, Moonshot и MiniMax тайно обучали свои модели на ответах Claude

Reading time2 min
Reach and readers9.8K

По заявлениям Anthropic, они обнаружили, что три китайские AI-лаборатории — DeepSeek, Moonshot и MiniMax — массово выкачивали ответы Claude, чтобы обучать на них свои модели. Суммарно они сгенерировали больше 16 миллионов запросов через примерно 24 000 поддельных аккаунтов.

Метод называется дистилляция: берёшь сильную модель, скармливаешь ей тысячи промптов, собираешь ответы и используешь их как обучающие данные для своей модели. Сам по себе метод легальный и распространённый, но в данном случае лаборатории нарушали условия использования и обходили региональные ограничения через прокси-сервисы.

Масштабы у всех разные.

Читать далее

Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения

Reading time2 min
Reach and readers9.2K

Компания OpenAI перестала использовать SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама создала этот бенчмарк в 2024 году.

Суть SWE-bench Verified: модели получают описание бага из GitHub-репозитория и должны сами написать патч, который его починит. 500 задач, проверенных вручную инженерами. За полтора года бенчмарк стал стандартом — результаты по нему указывали в каждом релизе новой модели.

Проблемы нашли две.

Читать далее

Anthropic выпустили Claude Code Security. Инструмент сканирует кодовые базы на уязвимости и предлагает патчи

Reading time1 min
Reach and readers8.8K

Отличие от классических статических анализаторов в подходе. Обычные инструменты ищут по известным паттернам: утёкшие пароли, устаревшее шифрование. Claude Code Security вместо этого читает код как исследователь безопасности: отслеживает, как данные проходят через приложение, и находит сложные ошибки вроде нарушенного контроля доступа или багов в бизнес-логике.

Читать далее

SkillsBench: скиллы дают реальный буст, но только если их писал человек

Reading time1 min
Reach and readers8.4K

Исследователи сделали первый бенчмарк, который измеряет, помогают ли «скиллы» ИИ-агентам решать задачи. Его назвали SkillsBench.

Skill — это, по сути, папка с инструкциями, скриптами и подсказками, которую агент читает перед тем, как приступить к задаче. Что-то вроде методички для конкретной предметной области. Такие скиллы уже активно используются в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто систематически не проверял, работают ли они вообще.

Читать далее

Большое исследование Anthropic про автономность ИИ-агентов в продакшене

Reading time2 min
Reach and readers4.9K

Anthropic выпустила исследование о том, как люди используют автономных ИИ-агентов в продакшене. Для этого они посмотрели на миллионы взаимодействий в Claude Code и на вызовы инструментов через публичный API.

Самый наглядный сигнал – это длительность работы Claude Code без остановки. Медианный “ход” короткий (порядка 45 секунд), а вот 99.9-й перцентиль за три месяца почти удвоился: с <25 минут до >45 минут. Причём рост получился плавным и не совпадает скачками с релизами моделей — то есть автономность в практике растёт не только из-за самой модели, но и из-за доверия пользователей и привычки делегировать.

Читать далее

Вышел Cursor 2.5: маркетплейс плагинов и многоагентная архитектура

Reading time1 min
Reach and readers11K

Cursor выпустил обновление 2.5. Главное нововведение — плагины. Теперь навыки, субагенты, MCP-серверы, хуки и правила можно упаковать в один установочный пакет и подключить через маркетплейс.

Среди первых партнёров — Amplitude, Amazon Web Services, Figma, Linear, Stripe. Плагины закрывают задачи дизайна, аналитики, работы с БД, платежей и деплоя. Установить можно из редактора командой /add-plugin или через marketplace.

Второе крупное изменение...

Читать далее

Anthropic выпустила Claude Sonnet 4.6 с контекстом в 1 млн токенов

Reading time2 min
Reach and readers9.9K

Anthropic представила Claude Sonnet 4.6 — обновлённую версию своей «средней» модели, которая по ряду задач уже приближается к уровню Opus.

Теперь Sonnet 4.6 — модель по умолчанию в claude.ai и Claude Cowork для пользователей Free и Pro. Цена осталась прежней: от $3 за миллион входных токенов и $15 за миллион выходных — как у Sonnet 4.5.

Главное обновление — окно контекста в 1 миллион токенов (пока в бета-режиме). Это объём, в который помещается...

Читать далее

MiniMax представили M2.5 — флагманскую модель для кодинга и агентных задач

Reading time2 min
Reach and readers9.6K

MiniMax выпустили MiniMax-M2.5. Модель обучали с RL в сотнях тысяч реальных окружений. Фокус — кодинг, tool use, поиск и офисные сценарии.

По бенчмаркам:

– 80.2% на SWE-Bench Verified
– 51.3% на Multi-SWE-Bench
– 76.3% на BrowseComp (с управлением контекстом)

SWE-Bench Verified M2.5 проходит на 37% быстрее, чем M2.1: среднее время снизилось с 31.3 до 22.8 минут. Это сопоставимо с Opus 4.6 (22.9 мин), при этом заявленная стоимость задачи — около 10% от него.

В кодинге модель обучалась более чем на...

Читать далее

Z Code: новая ИИ IDE из Китая

Reading time1 min
Reach and readers13K

Компания Zhipu AI, которая вчера выпустила свежую версию своей флагманской модели GLM-5, сегодня показала полноценный сайт и changelog для своей новой IDE на базе Tauri под названием Z Code — спустя два месяца после первого релиза.

У Z Code первая версия вышла...

Читать далее

Anthropic открыла возможности платного тарифа Claude для пользователей без подписки

Reading time2 min
Reach and readers13K

Anthropic объявила, что в бесплатном плане Claude теперь доступны создание файлов, подключение внешних сервисов и использование Skills — раньше это требовало подписки.

Новость вышла через два дня после того, как OpenAI начала показывать рекламу в ChatGPT для пользователей без подписки и на тарифе Go.

В бесплатном плане Claude можно...

Читать далее

Релиз GLM-5: от вайб-кодинга к агентной инженерии

Reading time2 min
Reach and readers17K

Z.ai представили GLM-5 — новую open-source модель для системной разработки и long-horizon агентных задач.

По сравнению с GLM-4.7 масштаб вырос с 355B (32B active) до 744B параметров (40B active). Объём предобучения увеличен с 23T до 28.5T токенов. Добавили DeepSeek Sparse Attention — это снижает стоимость инференса при сохранении длинного контекста.

Для посттрейна команда сделала собственную асинхронную RL-инфраструктуру slime. Задача — ускорить reinforcement learning и сделать возможными...

Читать далее

Релиз Go 1.26: изменения в синтаксисе, новый GC и экспериментальный SIMD

Reading time2 min
Reach and readers5.1K

Команда Go объявила о релизе версии 1.26. Обновление затрагивает синтаксис языка, систему типов, сборщик мусора, компилятор и стандартную библиотеку.

В Go 1.26 переработана встроенная функция new. Теперь в неё можно передавать выражение, задающее начальное значение переменной.

Ранее код выглядел так:

Читать далее

Команда Cursor выпустила новую версию своей агентной модели для программирования — Composer 1.5

Reading time2 min
Reach and readers8.5K

Предыдущую версию, Composer 1, показали несколько месяцев назад. С тех пор модель дообучали, увеличив масштаб reinforcement learning примерно в 20 раз. По словам разработчиков, вычислений на посттренинг Composer 1.5 ушло больше, чем на изначальное предобучение базовой модели.

Внутренние бенчмарки Cursor, основанные на реальных задачах из разработки, показывают, что Composer 1.5 довольно быстро обходит Composer 1 и дальше продолжает расти по качеству. Наибольший прирост заметен на...

Читать далее

Claude Code совершает 4% всех публичных коммитов на GitHub

Reading time1 min
Reach and readers5K

SemiAnalysis выпустили большой разбор Claude Code и утверждают, что прямо сейчас около 4% публичных коммитов на GitHub «пишет» Claude Code. В той же заметке авторы прогнозируют, что при сохранении траектории доля может вырасти до 20%+ ежедневных коммитов к концу 2026 года.

На этом фоне Anthropic в тот же день анонсировала обновление модели Claude Opus 4.6 с упором на «длинные» задачи, инструментальное использование и командную работу агентов в Claude Code.

В разборе SemiAnalysis главный тезис такой: конкуренция смещается от «качества одного ответа модели» к тому, насколько хорошо агент оркестрирует много шагов, занимается планированием, запускает инструменты, проверяет результаты, и так далее.

Читать далее

Opus 4.6 и команда ИИ-агентов написала компилятор С за 2 недели

Reading time2 min
Reach and readers10K

Исследователь Anthropic Николас Карлини провёл эксперимент с так называемыми agent teams — группой автономных LLM-агентов, которые работают над одним проектом без постоянного участия человека.

В качестве стресс-теста он запустил 16 экземпляров Claude Opus 4.6 и поручил им написать компилятор С на Rust с нуля. Цель была следующей: компилятор должен уметь собирать Linux kernel. После почти 2000 сессий, двух недель работы и затрат около 20 000 долларов агенты выдали кодовую базу на ~100 000 строк, которая действительно собирает Linux 6.9 под x86, ARM и RISC-V.

Человек почти не вмешивался. Claude работал в бесконечном цикле...

Читать далее

OpenAI представила GPT-5.3-Codex. Модель разрабатывали и обучали в тесной связке с инфраструктурой NVIDIA

Reading time2 min
Reach and readers11K

Модель обучалась и запускалась на системах NVIDIA GB200 NVL72. Это стойки с новыми ускорителями Blackwell, рассчитанные на плотную работу с большими моделями и агентами.

Модель объединяет возможности GPT-5.2-Codex в программировании и GPT-5.2 в рассуждениях и работе с профессиональными задачами. При этом она примерно на 25% быстрее и лучше справляется с длительными заданиями, где нужно искать информацию, пользоваться инструментами и выполнять цепочки действий.

GPT-5.3-Codex может работать часами или днями, а пользователь в это время может вмешиваться в процесс: задавать вопросы, менять направление работы и ...

Читать далее

Релиз Claude Opus 4.6 — обновление самой мощной ИИ-модели Anthropic

Reading time2 min
Reach and readers11K

Главное изменение — серьёзный апгрейд работы с кодом. Opus 4.6 дольше удерживает контекст, аккуратнее планирует шаги, стабильнее работает с большими кодовыми базами и лучше находит собственные ошибки при ревью и отладке.

Впервые для линейки Opus модель получила контекстное окно на 1 миллион токенов (пока в бете).

Модель стала заметно сильнее и в...

Читать далее

Релиз Kimi K2.5: модель научилась писать код по картинкам и видео

Reading time1 min
Reach and readers6.4K

Вышла Kimi K2.5 — обновление открытой мультимодальной модели с фокусом на код и агентные сценарии. Модель дообучили примерно на 15 трлн визуально-текстовых токенов, без разделения на «vision» и «text» пайплайны.

Главное изменение для разработчиков — coding with vision. K2.5 умеет писать и отлаживать код, опираясь на изображения и видео: восстанавливать интерфейсы по скринкастам, дебажить визуальные баги, превращать дизайн или анимацию в рабочий фронтенд. Эти же механики используются в...

Читать далее

Information

Rating
162-nd
Date of birth
Registered
Activity

Specialization

Бэкенд разработчик
Ведущий
Python
SQL
Git
ООП
PostgreSQL
Docker
Django