mefdayy Aug 4 at 16:59

Cohere выпустила новую мультимодальную модель Command A Vision

1 min

545

BotHub corporate blogArtificial IntelligenceMachine learning * Image processing *

Command A Vision предназначена для анализа изображений, диаграмм, PDF-файлов и других визуальных данных. По заявлению разработчиков, на стандартных бенчмарках для компьютерного зрения она превосходит GPT-4.1, Llama 4 и Mistral Medium 3.

Модель способна не только считывать текст с документов, но и понимать их структуру, выдавая результат в формате JSON. Кроме того, Command A Vision может анализировать и реальные изображения, например, для выявления потенциальных рисков на промышленных объектах.

Обратите внимание, что использование этого инструмента не поддерживается в модели. Также важно отметить, что Command A Vision может принимать изображения в качестве входных данных, но не генерирует их.

Command A Vision отлично подходит для корпоративных задач, таких как:

анализ диаграмм, графиков и схем;
извлечение и анализ таблиц в изображениях;
оптическое распознавание символов (OCR) и ответы на вопросы;
обработка изображений на естественном языке.

Модель уже доступна на платформе Cohere и в репозитории Hugging Face для исследовательских целей. Для запуска понадобятся 2 GPU A100 или один H100 под квантованную 4-битную версию.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Hubs:

Cohere выпустила новую мультимодальную модель Command A Vision

Other news

Information