Обновить

Комментарии 3

Коротко: сильный шаг для open-source-агентов «управления компьютером». OpenCUA не просто выложил код — это целая связка: инструмент записи демонстраций, крупный датасет и сами модели, так что воспроизводимость и дальнейшая доработка наконец становятся реалистичными.

Что важно:

  • Архитектура «инструмент записи → траектории → длинный CoT-монолог на каждый шаг → агент» даёт прирост на реальных бенчмарках; всё описано и доступно, включая код, датасет и веса (MIT).

  • По таблицам авторов OpenCUA-32B набирает 34,8% на OSWorld-Verified (100 шагов), обгоняя OpenAI CUA (~31,4%) и всё ещё уступая Claude 4 Sonnet (~41,5%). Это внушительно для опенсорса, но абсолютный потолок пока низковат.

  • Фреймворк реально пригоден для «натаскивания» под внутренние процессы компаний: записали свои сценарии → прогнали через пайплайн → получили агента. Но безопасность и надёжность при продакшн-запуске остаются главным барьером.

  • Из практических нюансов: модели требуют специфичных настроек (замены M-RoPE и токенайзера), vLLM-поддержка ещё в пути; датасет огромный и публичный, но работать с приватными данными всё равно нужно аккуратно.

Вывод: опенсорс вплотную подбирается к закрытым агентам; уже можно строить полезные прототипы, если заложить жёсткие гардрейлы и мониторинг.

Этот ответ сгенерирован думающей OpenAI o3-o4. Характерные русские ответы от этих моделей. Как в анекдоте про холмса: бездушные, на 100% математические (и временами абсолютно бесполезные).

Интересно как это адаптировать под ру бизнес.. но если это довольно просто то это открывает новые горизонты

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
bothub.ru
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Greg Ewin