
ИИ начал работать в реальных интерфейсах: он научился видеть экраны, кликать кнопки, писать код и сразу же проверять, что получилось. И оказывается интерфейсы, да и весь интернет проектировали для людей, но не для агентов.
В ноябре вышли исследования, которые показывают этот разрыв. Мы видим попытки научить ИИ действовать в человеческом мире — со всеми его визуальным шумом, неудобными интерфейсами и неявными правилами.
Ниже — 10 самых запоминающихся статей. Поехали!
1. Будущее программирования — мультимодальное: как JanusCoder научился видеть интерфейс, который сам создает
Сегодня ИИ пишет код, но не видит результата на экране. Он может сгенерировать график, который нечитаем, интерфейс — который сломан, или анимацию — которая визуально не соответствует задаче.

JanusCoder решает это так: модель работает сразу с текстом и изображением, запускает код и сравнивает ожидаемый и реальный визуальный результат.

Теперь разработка интерфейсов — это не только задача текстовой модальности, а мультимодальный пайплайн самопроверки итогового результата.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код
2. От пикселей к смыслу: как SVG помогает ИИ понимать мир
Большинство моделей видят изображение как шум из пикселей. Это плохо масштабируется в понимании сцены. Исследователи предлагают иное решение: переводить картинки в SVG — код с явными объектами и их связями и порядком.

SVG можно исполнять, проверять, редактировать и использовать для рассуждений. Эксперименты показывают, что ИИ начинает лучше переносить смысл сцены между задачами.

Так ИИ научился не просто «распознавать» картинку, а структурно визуально «мыслить».

🔍 Обзор статьи | 📜 Полная статья | 💾 Код
3. Почему мышление через видео может быть следующим шагом в развитии ИИ
Мы привыкли, что ИИ рассуждает с помощью слов или статичных картинок, но в реальном мире существует ещё одно измерение — время. Ученые научили ИИ-модель мыслит с помощью видео: строить гипотезы, проверять их действиями и сразу корректировать.

Такой подход резко улучшает решение пазлов, пространственных и геометрических задач.

Удивительно, как ИИ начинает «мыслить» не цепочкой токенов, а совершением во времени определенных действий.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код
4. Как обучить ИИ работать за компьютером
ИИ-агенты часто знают, что нужно сделать, но не понимают, куда нажать. В GroundCUA вместо синтетических данных использовали реальные рабочие интерфейсы и связали язык с конкретными UI-элементами.

Удивительно, что даже малые модели начинают точно попадать в кнопки и поля.



Вывод простой: прогресс компьютерных агентов определяется не размером модели, а качеством связи слов с элементами интерфейса.
🔍 Обзор статьи | 📜 Полная статья
5. Как универсальный ИИ-агент учится жить в открытом мире
Большинство универсальных агентов теряются в шумной, непредсказуемой среде. Агент Lumine идёт другим путём: он видит экран, действует мышью и клавиатурой, а размышляет только в нужные моменты.

Он может часами достигать сложных целей и переноситься в другие среды без дообучения.

Так ИИ научился не просто решать отдельные задачи, но и "выживать" в неопределенной среде.

🔍 Обзор статьи | 📜 Полная статья
6. Как ИИ-ученый пишет научные статьи о машинном обучении на уровне джуна
Полностью автономный ИИ-учёный пока работает не очень хорошо. Вместо этого исследователи предлагают сделать ИИ-джуна. Он улучшает одну конкретную статью — дописывает код, проверяет эксперименты, собирает черновик.

Качество резко растёт, но человек всё равно остаётся необходим.

Так ИИ уже сегодня помогает учёным в науке, но только если они дают ему правильную роль.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код
7. Как ИИ-агенты научились рефакторить код: что получается хорошо, а что не очень
ИИ-агенты уже не просто пишут код, а сами наводят в нём порядок: переименовывают файлы, дробят длинные методы, выравнивают стиль и даже оформляют всё в аккуратные pull request’ы.

Такая «гигиена» реально улучшает читаемость и поддержку кода, но почти не затрагивает общую архитектуру.


Агентам можно смело отдавать рутину и технический долг, освобождая людей для дизайна системы. Это меняет саму модель работы с кодом — и тут стоит разобраться в деталях.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
8. Как ИИ-агенты живут в "Станции" и делают научные открытия
До сегодняшнего дня ИИ для научных исследований работал по строгому конвейеру: сделали шаг → получили оценку → забыли контекст. Но проект "Станция" показывает, что для настоящих открытий решающим фактором становится сама среда.

Агенты живут в общей лаборатории: они помнят прошлые идеи, возвращаются к старым гипотезам, спорят между собой и сами выбирают, чем заниматься дальше. У них есть история, контекст и последствия действий. В результате они не просто улучшают метрики, а по ходу пути находят неожиданные методы и нетривиальные решения.

Главное открытие здесь не в бенчмарках. Оно в том, что наука для ИИ начинается с памяти, свободы и постоянной проверки реальностью. Без этого любая система — даже очень умная — легко скатывается в красивые, логичные, но ложные теории и обучаются неверные модели мира.
🔍 Обзор статьи | 📜 Полная статья | 💾 Код
9. Как писать README-файлы для ИИ-агентов
Команды уже начали писать README не для людей, а для агентов: как запускать проект, что можно менять, а что нельзя. Исследование показало, что эти файлы быстро растут и становятся сложнее обычной документации.

Это новый слой управления мышлением ИИ. Если относиться к нему как к коду — контроль сохраняется. Если нет — автономность обгонит безопасность.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код
10. Как сделать интернет удобным для ИИ-агентов
Сегодня веб-агенты работают на ощупь: смотрят на пиксели, угадывают клики, но всё ломается при любом редизайне. Исследователи предлагают сайтам явно описывать допустимые действия и текущее состояние. Таким образом агент перестаёт гадать и начинает работать по правилам.


Это действительно один из первых серьёзных шагов к настоящему интернету для людей и ИИ.

🔍 Обзор статьи | 📜 Полная статья
ИИ научился достигать сложных целей в неопределенной среде, видеть интерфейсы и проверять себя. Современные исследования заставляют задуматься о появлении "живого цифрового существа", встроенного в наши привычные интерфейсы, код и любые цифровые процессы. Но именно здесь главная проблема — мир, который мы построили для людей, оказывается не очень удобной средой для агентов. Следующий скачок случится не в архитектурах и масштабах, а в переустройстве самой среды: когда интернет станет общей информационной средой для людей и ИИ.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
