Релиз Kimi K2.5: модель научилась писать код по картинкам и видео / Хабр

Вышла Kimi K2.5 — обновление открытой мультимодальной модели с фокусом на код и агентные сценарии. Модель дообучили примерно на 15 трлн визуально-текстовых токенов, без разделения на «vision» и «text» пайплайны.

Главное изменение для разработчиков — coding with vision. K2.5 умеет писать и отлаживать код, опираясь на изображения и видео: восстанавливать интерфейсы по скринкастам, дебажить визуальные баги, превращать дизайн или анимацию в рабочий фронтенд. Эти же механики используются в задачах уровня image/video-to-code и визуального reasoning (вплоть до генерации и исполнения алгоритмов поверх изображений).

Для инженерных задач модель тестировали на SWE-Bench (включая multilingual) и внутренних end-to-end сценариях: сборка, рефакторинг, тестирование, отладка. По заявлению команды, K2.5 стабильно обходит K2, особенно в фронтенде и длинных цепочках правок.

Отдельный слой — Agent Swarm. Модель может сама оркестрировать до 100 под-агентов и выполнять до 1500 инструментальных шагов параллельно. Роли и декомпозиция появляются динамически. В агентных бенчмарках заявлено ускорение до 4.5× по сравнению с одиночным агентом.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!