Pull to refresh
57
95.1
Иван Никитин@python_leader

Passionate Developer.

Send message

Opus 4.6 и команда ИИ-агентов написала компилятор С за 2 недели

Reading time2 min
Reach and readers6.4K

Исследователь Anthropic Николас Карлини провёл эксперимент с так называемыми agent teams — группой автономных LLM-агентов, которые работают над одним проектом без постоянного участия человека.

В качестве стресс-теста он запустил 16 экземпляров Claude Opus 4.6 и поручил им написать компилятор С на Rust с нуля. Цель была следующей: компилятор должен уметь собирать Linux kernel. После почти 2000 сессий, двух недель работы и затрат около 20 000 долларов агенты выдали кодовую базу на ~100 000 строк, которая действительно собирает Linux 6.9 под x86, ARM и RISC-V.

Человек почти не вмешивался. Claude работал в бесконечном цикле...

Читать далее

OpenAI представила GPT-5.3-Codex. Модель разрабатывали и обучали в тесной связке с инфраструктурой NVIDIA

Reading time2 min
Reach and readers7.6K

Модель обучалась и запускалась на системах NVIDIA GB200 NVL72. Это стойки с новыми ускорителями Blackwell, рассчитанные на плотную работу с большими моделями и агентами.

Модель объединяет возможности GPT-5.2-Codex в программировании и GPT-5.2 в рассуждениях и работе с профессиональными задачами. При этом она примерно на 25% быстрее и лучше справляется с длительными заданиями, где нужно искать информацию, пользоваться инструментами и выполнять цепочки действий.

GPT-5.3-Codex может работать часами или днями, а пользователь в это время может вмешиваться в процесс: задавать вопросы, менять направление работы и ...

Читать далее

Релиз Claude Opus 4.6 — обновление самой мощной ИИ-модели Anthropic

Reading time2 min
Reach and readers5.4K

Главное изменение — серьёзный апгрейд работы с кодом. Opus 4.6 дольше удерживает контекст, аккуратнее планирует шаги, стабильнее работает с большими кодовыми базами и лучше находит собственные ошибки при ревью и отладке.

Впервые для линейки Opus модель получила контекстное окно на 1 миллион токенов (пока в бете).

Модель стала заметно сильнее и в...

Читать далее

Релиз Kimi K2.5: модель научилась писать код по картинкам и видео

Reading time1 min
Reach and readers6.1K

Вышла Kimi K2.5 — обновление открытой мультимодальной модели с фокусом на код и агентные сценарии. Модель дообучили примерно на 15 трлн визуально-текстовых токенов, без разделения на «vision» и «text» пайплайны.

Главное изменение для разработчиков — coding with vision. K2.5 умеет писать и отлаживать код, опираясь на изображения и видео: восстанавливать интерфейсы по скринкастам, дебажить визуальные баги, превращать дизайн или анимацию в рабочий фронтенд. Эти же механики используются в...

Читать далее

Вот почему платить за API Claude — странная затея

Reading time1 min
Reach and readers5.3K

Исследователь выяснил реальные лимиты подписок Claude Code и посчитал, во что они превращаются в деньгах, если сравнивать с API.

Коротко по цифрам:
– подписка за $20 ≈ $163 трат по API
– подписка за $100 ≈ $1 354 по API
– подписка за $200 ≈ $2 708 по API

Одна из причин такой разницы...

Читать далее

Claude Code теперь можно использовать прямо в VS Code — без терминала и лишних костылей

Reading time1 min
Reach and readers19K

Anthropic выпустили официальный плагин, который встраивает Claude Code прямо в VS Code.

Файлы можно @-упоминать прямо из редактора, включая конкретные диапазоны строк. История диалогов сохраняется, а разные задачи можно вести в отдельных вкладках.

По ощущениям это старый добрый Claude Code в CLI, но...

Читать далее

В Anthropic показали, что «характер» в LLM — это отдельное направление в нейросети

Reading time2 min
Reach and readers6.5K

Anthropic опубликовали исследование "The Assistant Axis": попытку формально описать и стабилизировать «характер» больших языковых моделей. Работа опирается на анализ внутренних нейронных активаций в нескольких open-weights моделях. 

Ключевая идея: характер — это не абстрактная роль, а конкретная персона в пространстве других возможных персонажей модели. И у этой персоны есть измеримая координата.

Коротко по основным результатам:

Читать далее

Похоже, GPT-5.3 уже на подходе — и это может быть один из самых серьёзных апдейтов OpenAI за долгое время

Reading time2 min
Reach and readers24K

По информации из нескольких источников, новая версия модели проходит под кодовым названием Garlic. Если верить инсайдам, GPT-5.2 был лишь промежуточным чекпоинтом — своего рода «разбавленной версией» того, чем станет 5.3.
Главная цифра — 2 000 токенов в секунду. Именно такую скорость сможет выдавать арендный кодинг на базе GPT-5.3 благодаря партнёрству OpenAI с Cerebras.

Для сравнения: Claude Code с моделью Opus 4.5 работает примерно на уровне 100 токенов в секунду. Разница — на порядок.

Это означает, что ИИ-агенты смогут...

Читать далее

Claude Code теперь можно запускать с локальными open-source моделями

Reading time1 min
Reach and readers24K

Начиная с версии Ollama 0.14, платформа получила совместимость с Anthropic Messages API. Это означает, что Claude Code — агентный инструмент для программирования, который работает прямо в терминале — теперь может использовать любую модель из Ollama, а не только облачные модели Anthropic.

По сути, Claude Code думает, что общается с Anthropic API, но на самом деле запросы уходят в локально запущенную модель. Достаточно указать Ollama как base URL — и инструмент начинает работать с open-source LLM так же, как раньше с Claude.

Claude Code умеет читать и писать код, анализировать проекты, работать с файлами и вызывать инструменты. Раньше для этого требовался доступ к облаку, теперь...

Читать далее

Как Bugbot в Cursor удвоил число реально исправленных багов

Reading time2 min
Reach and readers8.2K

В Cursor подробно разобрали, как эволюционировал Bugbot — агент для код-ревью pull request’ов, который ищет логические баги, проблемы с производительностью и уязвимости до мержа.

Изначально качество оценивали почти вручную: меняли пайплайны, модели и фильтры, опрашивали инженеров и отсекали конфигурации с высоким числом false positive. Один из первых устойчивых приёмов...

Читать далее

Anthropic инвестируют $1.5 млн в Python — и делают ставку на безопасность open source

Reading time1 min
Reach and readers9.4K

Anthropic объявили о двухлетнем партнёрстве с Python Software Foundation и инвестируют $1.5 млн в развитие Python-экосистемы. Ключевой фокус — безопасность цепочки поставок и защита PyPI.

Деньги пойдут не просто «на поддержку сообщества», а на вполне конкретные инженерные изменения:

Читать далее

Anthropic представили Cowork — «агентный режим» Claude для обычных задач

Reading time2 min
Reach and readers7.8K

После запуска Claude Code в Anthropic заметили, что разработчики начали использовать его не только для кода, но вообще для всего — от заметок до работы с файлами. Ответом стал Cowork — упрощённый агентный интерфейс для некодовых задач.

Ключевое отличие Cowork от обычного чата — доступ к файловой системе. Ты даёшь Claude папку, и дальше он может читать, править и создавать файлы сам: разложить загрузки, собрать таблицу расходов из скриншотов, сделать черновик отчёта из разрозненных заметок.

Важно, что Cowork работает именно как агент. Он сам строит план, выполняет шаги последовательно и периодически отчитывается о прогрессе. По сути, это тот же фундамент, что и у Claude Code, но без фокуса на программирование — ближе к...

Читать далее

Оказывается, у JetBrains есть свой CLI-агент Junie и он оказался лучшим в Terminal-Bench 2.0

Reading time1 min
Reach and readers10K

Оказывается, JetBrains развивает собственный агент для работы в терминале — Junie CLI. Инструмент не фигурирует в публичных анонсах, но именно он занял первое место в свежем бенчмарке Terminal-Bench 2.0, обойдя более известные решения.

Terminal-Bench — это прикладной бенчмарк для оценки агентных систем, работающих внутри терминального окружения. Агенту выдается контейнер с «сырой» средой и набор инженерных задач: выполнять shell-команды, писать и править скрипты, устанавливать зависимости, разбираться с ошибками окружения, дебажить и доводить систему до рабочего состояния.

Читать далее

Claude Code получил нативную поддержку LSP

Reading time2 min
Reach and readers12K

Anthropic выкатили нативную поддержку Language Server Protocol (LSP) для Claude Code. Изменение уже доступно в CLI-инструменте, но прошло почти незаметно: без анонсов, документации и публичных разборов.

Поддержка LSP позволяет агенту напрямую обращаться к возможностям языковых серверов: переход к определению, поиск всех ссылок на символ, получение типов и документации, навигация по workspace и даже построение call-graph. По сути, Claude Code получает доступ к тем же структурным данным о коде, которыми обычно располагают IDE.

До этого Claude Code и аналогичные CLI-агенты были вынуждены опираться на grep, ripgrep и эвристики контекста. Это плохо масштабируется: переименование символа или перенос API в большом кодовой базе быстро раздувает контекст и повышает вероятность ошибок.

Читать далее

Китайцы снова радуют. Вышла GLM-4.7 – заметный апгрейд именно для агентного кодинга

Reading time2 min
Reach and readers12K

Z.ai представили GLM-4.7 — новую версию своей модели для кодинга, и апдейт получился не косметическим. Основной фокус — агентные сценарии, терминал и устойчивость на длинных задачах.

По бенчмаркам рост выглядит вполне предметно: SWE-bench Verified — 73.8% (+5.8%), SWE-bench Multilingual — 66.7% (+12.9%), Terminal Bench 2.0 — 41% (+16.5%).

Читать далее

Claude Code научили работать с Chrome. Вот насколько это опасно

Reading time2 min
Reach and readers7.8K

Anthropic запустили пилот Claude in Chrome — браузерное расширение, в котором Claude может видеть DOM, читать консоль, кликать кнопки и выполнять действия за пользователя. На самом деле сделали они это еще летом, а сейчас допилили само расширение, а также научили его взаимодействовать с Claude Code из CLI.

Читать далее

Вслед за MCP Anthropic заопенсорсили Skills

Reading time1 min
Reach and readers5.2K

Anthropic продолжает последовательно выносить ключевые элементы агентной архитектуры в открытую экосистему. Вслед за MCP компания заопенсорсила Agent Skills — открытый стандарт для описания и распространения повторяемых агентных workflows между AI-платформами.

Читать далее

OpenAI выпустили GPT-5.2-Codex

Reading time2 min
Reach and readers8.7K

GPT-5.1-Codex-Max в прошлый раз сделал ставку на масштаб: компакция контекста и агентные циклы длиной в сутки. GPT-5.2-Codex развивает ту же идею, но делает её более надёжной и прикладной для реальных продакшн-сценариев.

Если 5.1-Codex-Max показывал максимум на SWE-Bench и SWE-Lancer, то 5.2-Codex подтверждает прогресс уже на agent-ориентированных бенчмарках:

Читать далее

Google выпустили Gemini 3 Flash — frontier-интеллект со скоростью Flash и ценой ниже рынка

Reading time2 min
Reach and readers7.3K

Gemini 3 Flash — новая модель в линейке Gemini 3, которая сочетает Pro-уровень reasoning с минимальной задержкой и агрессивной оптимизацией по стоимости.

По бенчмаркам модель выглядит неожиданно сильно. На GPQA Diamond — 90.4%, на Humanity’s Last Exam — 33.7% без инструментов, а на MMMU Pro — 81.2%, почти на уровне Gemini 3 Pro. При этом Flash уверенно обходит Gemini 2.5 Pro и конкурирует с крупными frontier-моделями, оставаясь в другом ценовом классе.

Ключевая инженерная фишка...

Читать далее

OpenAI представила GPT-5.2: ставка на долгие агентные сценарии и профессиональную автоматизацию

Reading time2 min
Reach and readers16K

OpenAI анонсировала новое поколение своих фронтир-моделей. GPT-5.2 позиционируется как инструмент для сложной профессиональной работы: от агентных пайплайнов до многочасовых задач с длинным контекстом и мультимодальностью.

Читать далее

Information

Rating
65-th
Date of birth
Registered
Activity

Specialization

Бэкенд разработчик
Ведущий
Python
SQL
Git
ООП
PostgreSQL
Docker
Django