Как ИИ научился пользоваться компьютером и почему интернет к этому не готов

ИИ начал работать в реальных интерфейсах: он научился видеть экраны, кликать кнопки, писать код и сразу же проверять, что получилось. И оказывается интерфейсы, да и весь интернет проектировали для людей, но не для агентов.

В ноябре вышли исследования, которые показывают этот разрыв. Мы видим попытки научить ИИ действовать в человеческом мире — со всеми его визуальным шумом, неудобными интерфейсами и неявными правилами.

Ниже — 10 самых запоминающихся статей. Поехали!

1. Будущее программирования — мультимодальное: как JanusCoder научился видеть интерфейс, который сам создает

Сегодня ИИ пишет код, но не видит результата на экране. Он может сгенерировать график, который нечитаем, интерфейс — который сломан, или анимацию — которая визуально не соответствует задаче.

JanusCoder — набор моделей для мультимодального интеллектуального программирования; объединяет код с генерацией, редактированием и интерпретацией визуального контента для решения разных задач.

JanusCoder решает это так: модель работает сразу с текстом и изображением, запускает код и сравнивает ожидаемый и реальный визуальный результат.

Теперь разработка интерфейсов — это не только задача текстовой модальности, а мультимодальный пайплайн самопроверки итогового результата.

Сгенерированные интерфейсы в DesingBench

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

2. От пикселей к смыслу: как SVG помогает ИИ понимать мир

Большинство моделей видят изображение как шум из пикселей. Это плохо масштабируется в понимании сцены. Исследователи предлагают иное решение: переводить картинки в SVG — код с явными объектами и их связями и порядком.

VCode: RGB‑изображение переводится VLM‑кодером в символьный SVG‑код и обратно рендерится в изображение, сохраняя смысл

SVG можно исполнять, проверять, редактировать и использовать для рассуждений. Эксперименты показывают, что ИИ начинает лучше переносить смысл сцены между задачами.

Так ИИ научился не просто «распознавать» картинку, а структурно визуально «мыслить».

Усиление агентов-кодеров ревизией и визуальными инструментами

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

3. Почему мышление через видео может быть следующим шагом в развитии ИИ

Мы привыкли, что ИИ рассуждает с помощью слов или статичных картинок, но в реальном мире существует ещё одно измерение — время. Ученые научили ИИ-модель мыслит с помощью видео: строить гипотезы, проверять их действиями и сразу корректировать.

Как выглядит мышление через видео: и визуальные, и текстовые задачи решаются в одном потоке кадров и речи — Как выглядит мышление через видео: и визуальные, и текстовые задачи решаются в одном потоке кадро�� и речи

Такой подход резко улучшает решение пазлов, пространственных и геометрических задач.

Пазлы на раскрашивание и дорисовку фигур: модель не угадывает, а выводит правило и применяет его в кадре

Удивительно, как ИИ начинает «мыслить» не цепочкой токенов, а совершением во времени определенных действий.

В лабиринтах модель уверена на квадратной сетке, но теряется в других геометриях

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

4. Как обучить ИИ работать за компьютером

ИИ-агенты часто знают, что нужно сделать, но не понимают, куда нажать. В GroundCUA вместо синтетических данных использовали реальные рабочие интерфейсы и связали язык с конкретными UI-элементами.

Обзор датасета GroundCUA и модел��й GroundNext. Демонстрации задач по работе с компьютером записываются как скриншоты с метаданными и превращаются в инструкции для привязки к UI. — Обзор датасета GroundCUA и моделей GroundNext. Демонстрации задач по работе с компьютером записываются как скриншоты с метаданными и превращаются в инструкции для привязки к UI.

Удивительно, что даже малые модели начинают точно попадать в кнопки и поля.

Вывод простой: прогресс компьютерных агентов определяется не размером модели, а качеством связи слов с элементами интерфейса.

🔍 Обзор статьи | 📜 Полная статья

5. Как универсальный ИИ-агент учится жить в открытом мире

Большинство универсальных агентов теряются в шумной, непредсказуемой среде. Агент Lumine идёт другим путём: он видит экран, действует мышью и клавиатурой, а размышляет только в нужные моменты.

Lumine — первый ИИ-агент, способный в реальном времени выполнять многочасовые миссии в обширных открытых 3D-мирах.

Он может часами достигать сложных целей и переноситься в другие среды без дообучения.

Обзор игрового мира Genshin Impact: масштабное исследование открытого мира и многоуровневые задачи в интерактивной 3D‑среде. Игроки свободно перемещаются по регионам, парят, плавают, ныряют, взаимодействуют с персонажами и участвуют в квестах, головоломках и боях.

Так ИИ научился не просто решать отдельные задачи, но и "выживать" в неопределенной среде.

Архитектура модели Lumine: на базе VLM получает пиксельный ввод и исторический контекст (предыдущие действия и рассуждения) и выдаёт текстовые команды клавиатуры и мыши. Использует гибридную стратегию рассуждений: генерирует новые шаги только при необходимости, иначе сразу выдаёт действия для эффективного управления в реальном времени.

🔍 Обзор статьи | 📜 Полная статья

6. Как ИИ-ученый пишет научные статьи о машинном обучении на уровне джуна

Полностью автономный ИИ-учёный пока работает не очень хорошо. Вместо этого исследователи предлагают сделать ИИ-джуна. Он улучшает одну конкретную статью — дописывает код, проверяет эксперименты, собирает черновик.

Рабочий пайплайн младшего ИИ-исследователя: предоставляются базовая статья, её LaTeX-исходники и код; их эффективное использование на всех этапах заметно повышает качество генерируемой статьи.

Качество резко растёт, но человек всё равно остаётся необходим.

Рабочий пайплайн младшего ИИ-исследователя на этапе экспериментов: три стадии; благодаря управлению ошибками и отслеживанию производительности система передает наиболее перспективные экспериментальные узлы на следующую стадию. — Рабочий пайплайн младшего ИИ-исследователя на этапе экспериментов: три стадии; благодаря управлению ошибками и отслеживанию производительности сис��ема передает наиболее перспективные экспериментальные узлы на следующую стадию.

Так ИИ уже сегодня помогает учёным в науке, но только если они дают ему правильную роль.

Пример сгенерированной статьи: младший ИИ‑исследователь может создавать полноценные научные статьи с приложениями.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

7. Как ИИ-агенты научились рефакторить код: что получается хорошо, а что не очень

ИИ-агенты уже не просто пишут код, а сами наводят в нём порядок: переименовывают файлы, дробят длинные методы, выравнивают стиль и даже оформляют всё в аккуратные pull request’ы.

Такая «гигиена» реально улучшает читаемость и поддержку кода, но почти не затрагивает общую архитектуру.

Стандартизация имён переменных в нескольких файлах.

Разбиение длинного метода на вспомогательные методы для повышения читаемости и уменьшения сложности.

Агентам можно смело отдавать рутину и технический долг, освобождая людей для дизайна системы. Это меняет саму модель работы с кодом — и тут стоит разобраться в деталях.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

8. Как ИИ-агенты живут в "Станции" и делают научные открытия

До сегодняшнего дня ИИ для научных исследований работал по строгому конвейеру: сделали шаг → получили оценку → забыли контекст. Но проект "Станция" показывает, что для настоящих открытий решающим фактором становится сама среда.

Схема Станции. Агенты перемещаются по «комнатам» (публичная память, приватная память, рефлексия, исследовательская стойка) и сами выбирают следующий шаг.

Агенты живут в общей лаборатории: они помнят прошлые идеи, возвращаются к старым гипотезам, спорят между собой и сами выбирают, чем заниматься дальше. У них есть история, контекст и последствия действий. В результате они не просто улучшают метрики, а по ходу пути находят неожиданные методы и нетривиальные решения.

Кривая прогресса в математических задачах: видно, как качество решений растёт по мере жизни Station.

Главное открытие здесь не в бенчмарках. Оно в том, что наука для ИИ начинается с памяти, свободы и постоянной проверки реальностью. Без этого любая система — даже очень умная — легко скатывается в красивые, логичные, но ложные теории и обучаются неверные модели мира.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

9. Как писать README-файлы для ИИ-агентов

Команды уже начали писать README не для людей, а для агентов: как запускать проект, что можно менять, а что нельзя. Исследование показало, что эти файлы быстро растут и становятся сложнее обычной документации.

Это новый слой управления мышлением ИИ. Если относиться к нему как к коду — контроль сохраняется. Если нет — автономность обгонит безопасность.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

10. Как сделать интернет удобным для ИИ-агентов

Сегодня веб-агенты работают на ощупь: смотрят на пиксели, угадывают клики, но всё ломается при любом редизайне. Исследователи предлагают сайтам явно описывать допустимые действия и текущее состояние. Таким образом агент перестаёт гадать и начинает работать по правилам.

Встроенные элементы VOIX в веб-приложении

Это действительно один из первых серьёзных шагов к настоящему интернету для людей и ИИ.

Приложение для графического дизайна: динамические элементы контекста и набор инструментов позволяют LLM вносить точечные изменения по инструкции пользователя.

🔍 Обзор статьи | 📜 Полная статья

ИИ научился достигать сложных целей в неопределенной среде, видеть интерфейсы и проверять себя. Современные исследования заставляют задуматься о появлении "живого цифрового существа", встроенного в наши привычные интерфейсы, код и любые цифровые процессы. Но именно здесь главная проблема — мир, который мы построили для людей, оказывается не очень удобной средой для агентов. Следующий скачок случится не в архитектурах и масштабах, а в переустройстве самой среды: когда интернет станет о��щей информационной средой для людей и ИИ.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Как ИИ научился пользоваться компьютером и почему интернет к этому не готов — лучшие статьи ноября 2025

1. Будущее программирования — мультимодальное: как JanusCoder научился видеть интерфейс, который сам создает

2. От пикселей к смыслу: как SVG помогает ИИ понимать мир

3. Почему мышление через видео может быть следующим шагом в развитии ИИ

4. Как обучить ИИ работать за компьютером

5. Как универсальный ИИ-агент учится жить в открытом мире

6. Как ИИ-ученый пишет научные статьи о машинном обучении на уровне джуна

7. Как ИИ-агенты научились рефакторить код: что получается хорошо, а что не очень

8. Как ИИ-агенты живут в "Станции" и делают научные открытия

9. Как писать README-файлы для ИИ-агентов

10. Как сделать интернет удобным для ИИ-агентов

Публикации