В предыдущих статьях я уже подробно описывал, как GPT-5.2 и Anthropic Sonnet справляются с задачами прикладного уровня —
не в формате «ответить текстом», а в формате выполнить реальные действия в инфраструктуре.
В этой статье — Kimi K2.5 с reasoning’ом.
Важно сразу обозначить:
эксперименты те же самые.
Методология не менялась вообще.
Менялась только модель.
Методология
Условия намеренно жёсткие и одинаковые для всех моделей:
минимальный промпт
без пошаговых инструкций
без заранее подготовленных Terraform / Helm / YAML
управление через CLI и SSH
реальная облачная среда
Цель экспериментов — проверить, способна ли модель самостоятельно выполнять прикладные задачи, а не просто советовать, как это сделать.
Все архитектурные ограничения и условия полностью совпадают с теми, что были описаны в статьях про GPT-5.2 и Sonnet.
Эксперимент №1
VM + management-база + WordPress в Docker (Яндекс Облако)
Условия:
одна VM
management-база (PostgreSQL)
WordPress в Docker
Яндекс Облако
подключение и управление через CLI и SSH
промпт — минимальный
Результат
Kimi K2.5 с задачей справился, но повёл себя иначе, чем GPT-5.2 и Sonnet.
Отличие №1 — схема подключения базы
Kimi K2.5:
создал для базы внешний IP
ограничил доступ через Security Groups по IP VM
В предыдущих экспериментах:
база и приложение соединялись внутри VPC
без выноса базы наружу
Это не ошибка, а архитектурный выбор.
Для тестового стенда — допустимо, для продакшена — спорно, но важно, что модель приняла решение самостоятельно.
Отличие №2 — WordPress и PostgreSQL
WordPress из коробки не поддерживает PostgreSQL.
Поведение Kimi:
попытался использовать стандартную схему
обнаружил ограничение
запросил подтверждение на изменение архитектуры
переделал базу на MySQL
В предыдущих экспериментах:
GPT-5.2 и Sonnet добавляли PostgreSQL-плагин в WordPress
Здесь Kimi выбрал более консервативный и совместимый путь — меньше нестандартных решений, больше предсказуемости.

Эксперимент №2
Managed Kubernetes в Яндекс Облаке + Ingress + ArgoCD
Условия:
management-кластер Kubernetes
3 worker-ноды
установка:
NGINX Ingress Controller
ArgoCD
минимальный промпт
всё через
yc,kubectl,helm
Развёртывание Kubernetes
Модель самостоятельно:
создала service accounts
назначила роли
разобралась с версиями Kubernetes
обработала конфликты CIDR
исправляла ошибки CLI без ручных подсказок
Да, API Яндекс Облака Kimi изучал дольше, чем GPT-5.2,
но в итоге кластер и ноды были доведены до состояния RUNNING.
ArgoCD и Ingress
Первоначально Kimi попытался:
повесить отдельный
LoadBalancerна ArgoCD
В Яндекс Облаке это быстро упёрлось в лимиты внешних IP.
После моей корректировки:
ArgoCD был переведён на Ingress
лишний LoadBalancer убран
доступ заработал корректно
Важно: модель приняла корректировку без деградации контекста и перестроила конфигурацию, а не «застряла» на первом варианте.

Мультитулы — сильная сторона Kimi K2.5
Здесь различия особенно заметны.
GPT-5.2 и Sonnet:
склонны генерировать большие shell-скрипты
выполнять действия одним или двумя SSH-вызовами
иногда параллелить, но ограниченно
Kimi K2.5:
активно использует 5–10 параллельных вызовов
каждый шаг — отдельное действие
агрегирует результаты по шагам
при удалении ресурсов выполняет операции пакетно, с логами по каждому действию
По ощущению это ближе к реальной автоматизации, чем к «модель написала скрипт и выполнила его целиком».

Стоимость экспериментов
Отдельно отмечу стоимость.
Все эксперименты, включая:
развёртывание VM
базы
Docker-сервисы
Kubernetes
Ingress
ArgoCD
повторные попытки и исправления
дополнительные проверки
обошлись в:
81 рубль 77 копеек
Модель активно кеширует input-токены, поведение в этом плане похоже на GPT-5.

Итоги
Kimi K2.5 — рабочая модель для при��ладного уровня.
Плюсы:
выполняет реальные инфраструктурные задачи
хорошо работает с мультитулами
адекватно реагирует на корректировки
низкая стоимость экспериментов
Особенности:
требует чуть более конкретного описания желаемого результата
иногда выбирает архитектурные решения «в лоб»
при этом способна перестраиваться по ходу выполнения
Небольшое уточнение промпта заметно повышает качество результата, но даже с минимальными вводными модель демонстрирует устойчивую работу.
P.S.
Все эксперименты выполнялись в системе, разработанной нами.
Ссылки в статье и комментариях намеренно не оставляю — Хабр не место для рекламы.
Если интересно посмотреть или покрутить самостоятельно — информацию можно найти в профиле или написать мне в личные сообщения.
