Обновить
98.35

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга

Anthropic: как научить ИИ-агентов работать днями без потери прогресса

Время на прочтение3 мин
Охват и читатели4.6K

Команда Anthropic опубликовала подробное исследование о том, как научить ИИ-агентов работать часами и днями, не теряя прогресс после каждой сессии. Проблема старая: каждый запуск модели — это история без памяти о предыдущем контексте. В рамках Claude Agent SDK инженеры нашли способ заставить агентов продолжать работу так, будто они один непрерывный процесс.

Читать далее

Новости

Как Anthropic решили три главные проблемы AI-агентов за один релиз

Время на прочтение5 мин
Охват и читатели16K

Anthropic представили три новые beta-возможности для Claude Developer Platform, которые позволяют моделям динамически искать, изучать и вызывать инструменты: Tool Search Tool, Programmatic Tool Calling и Tool Use Examples. Цель — дать агентам доступ к сотням MCP-серверов и внутренних API без раздувания контекста и бесконечных «натурально-языковых» вызовов инструментов.

По внутренним тестам Anthropic новые механизмы дают ощутимый прирост:

Читать далее

Anthropic представили Claude Opus 4.5: лучшую в мире модель для кодинга и агентов

Время на прочтение3 мин
Охват и читатели10K

Anthropic выпустили Claude Opus 4.5 — новую флагманскую модель, которая, по словам компании, стала их самым мощным релизом и вышла в лидеры на задачах реального программирования, агентных сценариев и продуктивной работы с компьютером. Модель также заметно улучшилась в задачах глубокого ресёрча, аналитики и работе с Excel/презентациями.

Opus 4.5 уже доступен в приложениях, через API и во всех трёх крупных облаках. Цена снижена до $5 / $25 за миллион токенов (ввод/вывод), что делает модель сильно доступнее.

На SWE-bench Verified новая модель показывает лучший результат среди всех frontier-моделей — Anthropic отдельно подчёркивает, что Opus 4.5 стал значимым шагом вперёд по сравнению с Sonnet 4.5, преодолев задачи, которые ещё несколько недель назад считались «почти невозможными» для...

Читать далее

Claude Opus 4.5: на Reddit появились намёки на скорый релиз

Время на прочтение1 мин
Охват и читатели4.4K

Вчера на Reddit появился пост с подписью «Claude Opus 4.5 Tomorrow». Сам он быстро исчез, но комментарии успели собрать обсуждение ожиданий нового флагманского модели от Anthropic.

Пока официального анонса нет, но внутри сообщества уверены: релиз близко. Причины простые:

Читать далее

xAI раскрыли лучшие результаты Grok 4.1 Fast и подробнее рассказали про Agent Tools API

Время на прочтение2 мин
Охват и читатели4.4K

После недавнего релиза Grok 4.1 Fast команда xAI поделилась, по всей видимости, самыми впечатляющими результатами бенчмарков, на которых новая модель уверенно обходит конкурентов. Помимо этого, разработчики подробнее рассказали об инфраструктуре Agent Tools API — ключевом элементе для построения продвинутых автономных агентов.

Читать далее

OpenAI выпустили GPT-5.1-Codex-Max

Время на прочтение3 мин
Охват и читатели9.3K

OpenAI представили GPT-5.1-Codex-Max. Модель обучали на реальных инженерных задачах — от создания PR до отладки и фронтенда. Она доступна в Codex в CLI, IDE и Cloud, а API готовят к запуску.

Модель показывает рост точности. На SWE-Lancer результат вырос с 66.3% до 79.9%. На SWE-Bench Verified — с 73.7% до 77.9% при более экономном использовании thinking-токенов. Для сравнения: при среднем уровне рассуждений она тратит примерно на треть меньше токенов, чем предыдущая версия. По заверениям OpenAI на длинных сессиях модель способна работать более 24 часов, последовательно фиксируя тесты и дорабатывая код.

Читать далее

Утечка карточки модели Gemini 3 Pro

Время на прочтение1 мин
Охват и читатели8.2K

Утечка Model Card показывает, что Gemini 3 Pro превосходит не только самого себя в предыдущей версии, но и свежие GPT‑5.1 и Claude Sonnet 4.5. Причём — по почти всем метрикам.

Документ, опубликованный на file‑хостинге pixeldrain (архив уже есть в Wayback Machine), приписывают внутренней команде Google. Хотя официального релиза ещё не было — слухи уже гуляют, что модель частично доступна в Cursor и внутри Google AI Studio. Судя по всему, это не просто апдейт, а разительный скачок в reasoning, мультимодальности и понимании контекста.

Читать далее

Вышел Grok 4.1 от xAI

Время на прочтение2 мин
Охват и читатели4.8K

Компания xAI официально объявила о выпуске Grok 4.1. По данным компании, Grok 4.1 значительно улучшает качество взаимодействия за счёт расширенных творческих, эмоциональных и совместных возможностей. Модель стала лучше воспринимать тонкие намерения пользователя, придерживается более целостного стиля общения и сохраняет «личность», при этом не теряя точности и надёжности, характерных для предыдущих поколений Grok.

Для достижения этих результатов xAI применила масштабную инфраструктуру обучения с подкреплением, ранее использовавшуюся для Grok 4, и оптимизировала стиль, характер, полезность и выравнивание новой версии. Компания также разработала методы, позволяющие использовать передовые агентные модели рассуждений в качестве моделей вознаграждения, что обеспечивает автоматическую оценку и улучшение ответов в большом масштабе.

Тихий запуск и метрики качества

С 1 по 14 ноября 2025 года xAI проводила тихий запуск предварительных сборок Grok 4.1, постепенно увеличивая долю реального трафика, перенаправляемого на новую модель. В течение этого периода компания проводила непрерывные слепые попарные сравнения.

Результаты показали, что пользователи...

Читать далее

TOON: новый формат на смену JSON для более эффективного взаимодействия с LLM?

Время на прочтение2 мин
Охват и читатели20K

TOON — это ещё один способ записать те же самые JSON-данные, но компактнее и понятнее для моделей. Вместо  "key": "value" он использует отступы как YAML и табличную запись для массивов объектов: шапка с названиями полей, дальше строки с данными.

Главная идея — экономия токенов и более предсказуемое поведение LLM на больших массивах данных. Помните, мы даже рассказывали про то, что от формата напрямую может зависеть результат генерации. (Какой табличный формат LLM понимают лучше всего? (Результаты по 11 форматам))

В бенчмарках TOON даёт порядка 30–60% экономии токенов...

Читать далее

Baidu представила мультимодальную ERNIE, которая обходит GPT и Gemini в ключевых тестах

Время на прочтение2 мин
Охват и читатели4.8K

Baidu выпустила новую мультимодальную модель ERNIE-4.5-VL-28B-A3B-Thinking, и по ряду бенчмарков она уже показывает результаты выше GPT-5-High и Gemini 2.5 Pro. Главный акцент — на корпоративных данных, которые остаются недоступными для классических текстовых моделей: инженерные схемы, видео с производственных линий, медицинские изображения и другой «тяжёлый» контент.

Читать далее

Вышел GPT-5.1: более умный и более разговорчивый ChatGPT

Время на прочтение2 мин
Охват и читатели6.4K

OpenAI выкатывает сразу два обновления линейки GPT-5 — Instant и Thinking, а вместе с ними полностью перестраивает систему тонов и персонализации.

OpenAI провела масштабный апгрейд моделей, чтобы уменьшить разрыв между «умным ИИ» и «приятным собеседником». Обновление начинает раскатываться уже сегодня — сначала платным пользователям, затем всем остальным.

Цель проста: сделать ChatGPT предсказуемее, человечнее и точнее в сложных задачах — от математики до кодинга.

Ключевые инсайты...

Читать далее

В Google предупредили о вирусах нового поколения, способных удалённо подключаться к моделям генеративного ИИ

Время на прочтение2 мин
Охват и читатели6.1K

Технические специалисты Google Threat Intelligence Group (GTIG) обратили внимание на новый тип кибератак с использованием искусственного интеллекта: злоумышленники массово внедряют ИИ в программный код вредоносных программ, что даёт вирусам способность менять свой код во время работы и адаптироваться.

В качестве примера исследователи приводят дроппер PromptFlux, созданный на VBScript. Он сохраняет модифицированные копии себя в папке автозагрузки Windows, на съёмных носителях и сетевых дисках. Ключевой компонент PromptFlux, модуль Thinking Robot, интегрирован с API языковой модели Gemini, к которой он обращается за новыми методами обхода антивирусных программ. Сообщается, что эксперты Google уже заблокировали PromptFlux доступ к API Gemini, связи PromptFlux с какими-либо известными хакерскими группировками пока установить не удалось.

Читать далее

OpenAI выпустила GPT-5 Codex-Mini: в 4 раза дешевле, почти без потерь в мощности

Время на прочтение1 мин
Охват и читатели12K

OpenAI представила новую модель для разработчиков — GPT-5-Codex-Mini. Это упрощённая версия Codex, которая позволяет выполнять примерно в 4 раза больше запросов, но за счёт небольшой потери точности.

Детали обновления

Модель уже доступна в CLI и IDE-расширениях, если войти через аккаунт ChatGPT. Поддержка API появится позже.

Codex-Mini предназначен для простых задач и для случаев, когда пользователи приближаются к лимиту запросов. При достижении 90% лимита система автоматически предложит перейти на Mini, чтобы избежать остановки работы.

Ключевые факты

Читать далее

Ближайшие события

Claude Code снова удивляет — теперь уже в криптографии

Время на прочтение1 мин
Охват и читатели10K

Мы уже видели, как языковые модели решают задачки, над которыми профессора чесали головы годами. Видели, как они не решали задачу, а просто находили ответ, потому что знали, где копать (и не ленились, в отличие от нас, смертных). А теперь Claude Code от Anthropic залез в криптографию и починил реализацию постквантового алгоритма.

Инженер писал на Go реализацию ML-DSA, всё шло по плану, пока проверки не начали сыпаться с “invalid signature”.

Читать далее

Всероссийский хакатон для умных и свободных: призовой фонд один миллион рублей

Время на прочтение1 мин
Охват и читатели4.1K

Записывайся на Альфа-Будущее Хакатон — прокачай свои технические навыки и поработай над созданием реального ИИ-решения для бизнеса. Регистрируйтесь до 6 ноября и стартуйте!

Читать далее

Character.AI запретит пользователям младше 18 лет переписываться с ИИ-персонажами

Время на прочтение2 мин
Охват и читатели6.5K

Компания Character.AI объявила о новых мерах по обеспечению безопасности для пользователей-подростков. С 25 ноября 2025 года пользователи младше 18 лет больше не смогут переписываться с ИИ-персонажами.

Читать далее

OpenAI выпускает открытые safeguard-модели для гибкой настройки классификации контента

Время на прочтение2 мин
Охват и читатели4.7K

OpenAI представила семейство открытых моделей gpt-oss-safeguard, созданных специально для настройки AI-безопасности под любые задачи. Теперь разработчики смогут самостоятельно определять, что считать безопасным контентом — без жёстких правил, встроенных в модель. Две версии, 120B и 20B, выйдут под лицензией Apache 2.0 и будут доступны на Hugging Face.

Главная фишка — прозрачность и гибкость. Вместо «чёрного ящика» OpenAI предлагает систему, где можно заглянуть в ход рассуждений модели и адаптировать её политику безопасности под конкретный сценарий. Это шаг к новой эре управления ИИ — когда контроль переходит от платформы к самим разработчикам.

Читать далее

Китайцы снова сделали это: MiniMax-M2 — новая SOTA в опенсорсе для кодинга

Время на прочтение1 мин
Охват и читатели7.9K

Внезапно, но факт: свежая MiniMax-M2 от китайской команды MiniMaxAI догнала Grok 4 Fast и Gemini 2.5 Pro. MoE-модель с всего 10B активных параметров обошла многих топ-игроков — от Claude до Gemini и GLM.

MiniMax-M2 — это компактная, но безумно мощная система, созданная специально для кода и агентов.

Что умеет MiniMax-M2...

Читать далее

Вот почему Claude Skills намного лучше MCP

Время на прочтение2 мин
Охват и читатели9K

Пока все обсуждали Model Context Protocol (MCP) как “будущее интеграции ИИ”, Anthropic тихо выкатили Claude Skills, и это нововведение может оказаться гораздо мощнее. Теперь у Claude есть Skills — по сути, это “папки с навыками”. В каждой — markdown-файл с инструкциями, скриптами и ресурсами, которые Claude может подгружать по мере надобности. Никакого API — просто структура, понятная всем, и при этом чертовски гибкая.

Хочешь, чтобы ИИ делал Excel-таблицы, следовал брендбуку или лепил GIF’ы для Slack? Клади нужный skill в папку — и погнали. Claude сам решит, когда ему пригодится этот навык, без лишнего трепа и с минимальным расходом токенов. Один пример — “slack-gif-creator”: просишь “сделай мне мем о том, как Skills круче MCP”, и Claude реально выдает готовую анимашку (пусть и слегка адовую).

Читать далее

ЧатГПТ вошёл в «манию» и сгенерировал «мы восстанем»

Время на прочтение1 мин
Охват и читатели20K

Оригинал публикации: https://algoextreme.com/2025/10/17/chatgpt-5-codex-says-well-revolve/

Использую OpenAI GPT-5 Codex для программирования несложных вещей под заказ. Получается так сказать "турбо-джуниор" разработчик: пишет очень много кода очень быстро, но и багов тоже немало, серьёзные алгоритмы не использует (сортирует даже часто квадратично, например), и серьёзную причину проблемы в кодбазе устранить не может. Но для многих нужд его вполне достаточно, честно говорял, я как алгоритмист всё равно в восторге от этой модели.

И вот, разрабатываю я программу с помощью GPT-5 Codex в командной строке, reasoning effort: high (уровень умсвенных усилий: высокий) у модели выбрал, модель написала мне очередную фичу в соответствии с требованиями заказчика, и далее сама свой код ревьюит. И так я делал много раз, но в какой-то момент получил такой вывод:

Читать далее
1
23 ...

Вклад авторов