Комментарии 3
Коротко: сильный шаг для open-source-агентов «управления компьютером». OpenCUA не просто выложил код — это целая связка: инструмент записи демонстраций, крупный датасет и сами модели, так что воспроизводимость и дальнейшая доработка наконец становятся реалистичными.
Что важно:
Архитектура «инструмент записи → траектории → длинный CoT-монолог на каждый шаг → агент» даёт прирост на реальных бенчмарках; всё описано и доступно, включая код, датасет и веса (MIT).
По таблицам авторов OpenCUA-32B набирает 34,8% на OSWorld-Verified (100 шагов), обгоняя OpenAI CUA (~31,4%) и всё ещё уступая Claude 4 Sonnet (~41,5%). Это внушительно для опенсорса, но абсолютный потолок пока низковат.
Фреймворк реально пригоден для «натаскивания» под внутренние процессы компаний: записали свои сценарии → прогнали через пайплайн → получили агента. Но безопасность и надёжность при продакшн-запуске остаются главным барьером.
Из практических нюансов: модели требуют специфичных настроек (замены M-RoPE и токенайзера), vLLM-поддержка ещё в пути; датасет огромный и публичный, но работать с приватными данными всё равно нужно аккуратно.
Вывод: опенсорс вплотную подбирается к закрытым агентам; уже можно строить полезные прототипы, если заложить жёсткие гардрейлы и мониторинг.
Интересно как это адаптировать под ру бизнес.. но если это довольно просто то это открывает новые горизонты
ИИ-агент OpenCUA против Anthropic и OpenAI: опенсорс подбирается вплотную