Обновить
57
94.9
Иван Никитин@python_leader

Passionate Developer.

Отправить сообщение

Opus 4.6 и команда ИИ-агентов написала компилятор С за 2 недели

Время на прочтение2 мин
Охват и читатели4.4K

Исследователь Anthropic Николас Карлини провёл эксперимент с так называемыми agent teams — группой автономных LLM-агентов, которые работают над одним проектом без постоянного участия человека.

В качестве стресс-теста он запустил 16 экземпляров Claude Opus 4.6 и поручил им написать компилятор С на Rust с нуля. Цель была следующей: компилятор должен уметь собирать Linux kernel. После почти 2000 сессий, двух недель работы и затрат около 20 000 долларов агенты выдали кодовую базу на ~100 000 строк, которая действительно собирает Linux 6.9 под x86, ARM и RISC-V.

Человек почти не вмешивался. Claude работал в бесконечном цикле...

Читать далее

OpenAI представила GPT-5.3-Codex. Модель разрабатывали и обучали в тесной связке с инфраструктурой NVIDIA

Время на прочтение2 мин
Охват и читатели4.7K

Модель обучалась и запускалась на системах NVIDIA GB200 NVL72. Это стойки с новыми ускорителями Blackwell, рассчитанные на плотную работу с большими моделями и агентами.

Модель объединяет возможности GPT-5.2-Codex в программировании и GPT-5.2 в рассуждениях и работе с профессиональными задачами. При этом она примерно на 25% быстрее и лучше справляется с длительными заданиями, где нужно искать информацию, пользоваться инструментами и выполнять цепочки действий.

GPT-5.3-Codex может работать часами или днями, а пользователь в это время может вмешиваться в процесс: задавать вопросы, менять направление работы и ...

Читать далее

Релиз Claude Opus 4.6 — обновление самой мощной ИИ-модели Anthropic

Время на прочтение2 мин
Охват и читатели3.9K

Главное изменение — серьёзный апгрейд работы с кодом. Opus 4.6 дольше удерживает контекст, аккуратнее планирует шаги, стабильнее работает с большими кодовыми базами и лучше находит собственные ошибки при ревью и отладке.

Впервые для линейки Opus модель получила контекстное окно на 1 миллион токенов (пока в бете).

Модель стала заметно сильнее и в...

Читать далее

Релиз Kimi K2.5: модель научилась писать код по картинкам и видео

Время на прочтение1 мин
Охват и читатели6.1K

Вышла Kimi K2.5 — обновление открытой мультимодальной модели с фокусом на код и агентные сценарии. Модель дообучили примерно на 15 трлн визуально-текстовых токенов, без разделения на «vision» и «text» пайплайны.

Главное изменение для разработчиков — coding with vision. K2.5 умеет писать и отлаживать код, опираясь на изображения и видео: восстанавливать интерфейсы по скринкастам, дебажить визуальные баги, превращать дизайн или анимацию в рабочий фронтенд. Эти же механики используются в...

Читать далее

Вот почему платить за API Claude — странная затея

Время на прочтение1 мин
Охват и читатели5.3K

Исследователь выяснил реальные лимиты подписок Claude Code и посчитал, во что они превращаются в деньгах, если сравнивать с API.

Коротко по цифрам:
– подписка за $20 ≈ $163 трат по API
– подписка за $100 ≈ $1 354 по API
– подписка за $200 ≈ $2 708 по API

Одна из причин такой разницы...

Читать далее

Claude Code теперь можно использовать прямо в VS Code — без терминала и лишних костылей

Время на прочтение1 мин
Охват и читатели19K

Anthropic выпустили официальный плагин, который встраивает Claude Code прямо в VS Code.

Файлы можно @-упоминать прямо из редактора, включая конкретные диапазоны строк. История диалогов сохраняется, а разные задачи можно вести в отдельных вкладках.

По ощущениям это старый добрый Claude Code в CLI, но...

Читать далее

В Anthropic показали, что «характер» в LLM — это отдельное направление в нейросети

Время на прочтение2 мин
Охват и читатели6.5K

Anthropic опубликовали исследование "The Assistant Axis": попытку формально описать и стабилизировать «характер» больших языковых моделей. Работа опирается на анализ внутренних нейронных активаций в нескольких open-weights моделях. 

Ключевая идея: характер — это не абстрактная роль, а конкретная персона в пространстве других возможных персонажей модели. И у этой персоны есть измеримая координата.

Коротко по основным результатам:

Читать далее

Похоже, GPT-5.3 уже на подходе — и это может быть один из самых серьёзных апдейтов OpenAI за долгое время

Время на прочтение2 мин
Охват и читатели24K

По информации из нескольких источников, новая версия модели проходит под кодовым названием Garlic. Если верить инсайдам, GPT-5.2 был лишь промежуточным чекпоинтом — своего рода «разбавленной версией» того, чем станет 5.3.
Главная цифра — 2 000 токенов в секунду. Именно такую скорость сможет выдавать арендный кодинг на базе GPT-5.3 благодаря партнёрству OpenAI с Cerebras.

Для сравнения: Claude Code с моделью Opus 4.5 работает примерно на уровне 100 токенов в секунду. Разница — на порядок.

Это означает, что ИИ-агенты смогут...

Читать далее

Claude Code теперь можно запускать с локальными open-source моделями

Время на прочтение1 мин
Охват и читатели24K

Начиная с версии Ollama 0.14, платформа получила совместимость с Anthropic Messages API. Это означает, что Claude Code — агентный инструмент для программирования, который работает прямо в терминале — теперь может использовать любую модель из Ollama, а не только облачные модели Anthropic.

По сути, Claude Code думает, что общается с Anthropic API, но на самом деле запросы уходят в локально запущенную модель. Достаточно указать Ollama как base URL — и инструмент начинает работать с open-source LLM так же, как раньше с Claude.

Claude Code умеет читать и писать код, анализировать проекты, работать с файлами и вызывать инструменты. Раньше для этого требовался доступ к облаку, теперь...

Читать далее

Как Bugbot в Cursor удвоил число реально исправленных багов

Время на прочтение2 мин
Охват и читатели8.2K

В Cursor подробно разобрали, как эволюционировал Bugbot — агент для код-ревью pull request’ов, который ищет логические баги, проблемы с производительностью и уязвимости до мержа.

Изначально качество оценивали почти вручную: меняли пайплайны, модели и фильтры, опрашивали инженеров и отсекали конфигурации с высоким числом false positive. Один из первых устойчивых приёмов...

Читать далее

Anthropic инвестируют $1.5 млн в Python — и делают ставку на безопасность open source

Время на прочтение1 мин
Охват и читатели9.4K

Anthropic объявили о двухлетнем партнёрстве с Python Software Foundation и инвестируют $1.5 млн в развитие Python-экосистемы. Ключевой фокус — безопасность цепочки поставок и защита PyPI.

Деньги пойдут не просто «на поддержку сообщества», а на вполне конкретные инженерные изменения:

Читать далее

Anthropic представили Cowork — «агентный режим» Claude для обычных задач

Время на прочтение2 мин
Охват и читатели7.8K

После запуска Claude Code в Anthropic заметили, что разработчики начали использовать его не только для кода, но вообще для всего — от заметок до работы с файлами. Ответом стал Cowork — упрощённый агентный интерфейс для некодовых задач.

Ключевое отличие Cowork от обычного чата — доступ к файловой системе. Ты даёшь Claude папку, и дальше он может читать, править и создавать файлы сам: разложить загрузки, собрать таблицу расходов из скриншотов, сделать черновик отчёта из разрозненных заметок.

Важно, что Cowork работает именно как агент. Он сам строит план, выполняет шаги последовательно и периодически отчитывается о прогрессе. По сути, это тот же фундамент, что и у Claude Code, но без фокуса на программирование — ближе к...

Читать далее

Оказывается, у JetBrains есть свой CLI-агент Junie и он оказался лучшим в Terminal-Bench 2.0

Время на прочтение1 мин
Охват и читатели10K

Оказывается, JetBrains развивает собственный агент для работы в терминале — Junie CLI. Инструмент не фигурирует в публичных анонсах, но именно он занял первое место в свежем бенчмарке Terminal-Bench 2.0, обойдя более известные решения.

Terminal-Bench — это прикладной бенчмарк для оценки агентных систем, работающих внутри терминального окружения. Агенту выдается контейнер с «сырой» средой и набор инженерных задач: выполнять shell-команды, писать и править скрипты, устанавливать зависимости, разбираться с ошибками окружения, дебажить и доводить систему до рабочего состояния.

Читать далее

Claude Code получил нативную поддержку LSP

Время на прочтение2 мин
Охват и читатели12K

Anthropic выкатили нативную поддержку Language Server Protocol (LSP) для Claude Code. Изменение уже доступно в CLI-инструменте, но прошло почти незаметно: без анонсов, документации и публичных разборов.

Поддержка LSP позволяет агенту напрямую обращаться к возможностям языковых серверов: переход к определению, поиск всех ссылок на символ, получение типов и документации, навигация по workspace и даже построение call-graph. По сути, Claude Code получает доступ к тем же структурным данным о коде, которыми обычно располагают IDE.

До этого Claude Code и аналогичные CLI-агенты были вынуждены опираться на grep, ripgrep и эвристики контекста. Это плохо масштабируется: переименование символа или перенос API в большом кодовой базе быстро раздувает контекст и повышает вероятность ошибок.

Читать далее

Китайцы снова радуют. Вышла GLM-4.7 – заметный апгрейд именно для агентного кодинга

Время на прочтение2 мин
Охват и читатели12K

Z.ai представили GLM-4.7 — новую версию своей модели для кодинга, и апдейт получился не косметическим. Основной фокус — агентные сценарии, терминал и устойчивость на длинных задачах.

По бенчмаркам рост выглядит вполне предметно: SWE-bench Verified — 73.8% (+5.8%), SWE-bench Multilingual — 66.7% (+12.9%), Terminal Bench 2.0 — 41% (+16.5%).

Читать далее

Claude Code научили работать с Chrome. Вот насколько это опасно

Время на прочтение2 мин
Охват и читатели7.8K

Anthropic запустили пилот Claude in Chrome — браузерное расширение, в котором Claude может видеть DOM, читать консоль, кликать кнопки и выполнять действия за пользователя. На самом деле сделали они это еще летом, а сейчас допилили само расширение, а также научили его взаимодействовать с Claude Code из CLI.

Читать далее

Вслед за MCP Anthropic заопенсорсили Skills

Время на прочтение1 мин
Охват и читатели5.2K

Anthropic продолжает последовательно выносить ключевые элементы агентной архитектуры в открытую экосистему. Вслед за MCP компания заопенсорсила Agent Skills — открытый стандарт для описания и распространения повторяемых агентных workflows между AI-платформами.

Читать далее

OpenAI выпустили GPT-5.2-Codex

Время на прочтение2 мин
Охват и читатели8.7K

GPT-5.1-Codex-Max в прошлый раз сделал ставку на масштаб: компакция контекста и агентные циклы длиной в сутки. GPT-5.2-Codex развивает ту же идею, но делает её более надёжной и прикладной для реальных продакшн-сценариев.

Если 5.1-Codex-Max показывал максимум на SWE-Bench и SWE-Lancer, то 5.2-Codex подтверждает прогресс уже на agent-ориентированных бенчмарках:

Читать далее

Google выпустили Gemini 3 Flash — frontier-интеллект со скоростью Flash и ценой ниже рынка

Время на прочтение2 мин
Охват и читатели7.3K

Gemini 3 Flash — новая модель в линейке Gemini 3, которая сочетает Pro-уровень reasoning с минимальной задержкой и агрессивной оптимизацией по стоимости.

По бенчмаркам модель выглядит неожиданно сильно. На GPQA Diamond — 90.4%, на Humanity’s Last Exam — 33.7% без инструментов, а на MMMU Pro — 81.2%, почти на уровне Gemini 3 Pro. При этом Flash уверенно обходит Gemini 2.5 Pro и конкурирует с крупными frontier-моделями, оставаясь в другом ценовом классе.

Ключевая инженерная фишка...

Читать далее

OpenAI представила GPT-5.2: ставка на долгие агентные сценарии и профессиональную автоматизацию

Время на прочтение2 мин
Охват и читатели16K

OpenAI анонсировала новое поколение своих фронтир-моделей. GPT-5.2 позиционируется как инструмент для сложной профессиональной работы: от агентных пайплайнов до многочасовых задач с длинным контекстом и мультимодальностью.

Читать далее

Информация

В рейтинге
65-й
Дата рождения
Зарегистрирован
Активность

Специализация

Бэкенд разработчик
Ведущий
Python
SQL
Git
ООП
PostgreSQL
Docker
Django