Как стать автором
Обновить
384.32
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Moonshot AI представляет Kimi-VL: мощную модель ИИ для обработки текста, изображений и видео

Время на прочтение3 мин
Количество просмотров1.4K

Новая модель ИИ с открытым исходным кодом от китайского стартапа Moonshot AI обрабатывает изображения, текст и видео с удивительной эффективностью. Модель Kimi-VL отличается способностью обрабатывать длинные документы, сложные рассуждения и понимать пользовательский интерфейс.

По данным Moonshot AI, Kimi-VL использует архитектуру «смесь экспертов», активируя только часть модели для каждой задачи. Имея всего 2,8 миллиарда активных параметров — гораздо меньше, чем у многих крупных моделей, — Kimi-VL показывает результаты, сопоставимые с результатами гораздо более крупных систем в различных тестах.

Модель может обрабатывать до 128 000 токенов в максимальном контексте, чего достаточно для обработки целой книги или длинной расшифровки видео. Moonshot AI сообщает, что Kimi-VL стабильно показывает высокие результаты в таких тестах, как LongVideoBench и MMLongBench-Doc.

Kimi-VL демонстрирует мощный визуальный анализ в различных сценариях.
Kimi-VL демонстрирует мощный визуальный анализ в различных сценариях.

Возможности Kimi-VL по обработке изображений примечательны. В отличие от некоторых систем, она может анализировать скриншоты или сложную графику, не разбивая их на более мелкие фрагменты. Модель также обрабатывает математические задачи с изображениями и рукописные заметки. В ходе одного теста он проанализировал рукопись, написанную от руки, выявил ссылки на Альберта Эйнштейна и объяснил их актуальность.

Ассистент шаг за шагом направляет пользователей от первоначальной настройки до активации функций защиты данных.
Ассистент шаг за шагом направляет пользователей от первоначальной настройки до активации функций защиты данных.

Система также функционирует как программный помощник, интерпретируя графические пользовательские интерфейсы и автоматизируя цифровые задачи. Компания Moonshot AI утверждает, что в тестах, в которых модель перемещалась по меню браузера или меняла настройки, она превзошла многие другие системы, включая GPT-4o.

По сравнению с другими моделями с открытым исходным кодом, такими как Qwen2.5-VL-7B и Gemma-3-12B-IT, Kimi-VL выглядит более эффективной. По данным Moonshot AI, она лидирует в 19 из 24 тестов, несмотря на то, что в ней гораздо меньше активных параметров. Сообщается, что в тестах MMBench-EN и AI2D она соответствует или превосходит результаты, которые обычно показывают более крупные коммерческие модели.

Kimi-VL-Thinking, имеющий всего 2,8 миллиарда активных параметров, превосходит более крупные модели в тесте MathVision.
Kimi-VL-Thinking, имеющий всего 2,8 миллиарда активных параметров, превосходит более крупные модели в тесте MathVision.

Компания объясняет такую производительность своим подходом к обучению. Помимо стандартной контролируемой тонкой настройки, Kimi-VL использует обучение с подкреплением. Специализированная версия под названием Kimi-VL-Thinking была обучена выполнять более длительные логические операции, повышая производительность при выполнении задач, требующих более сложных размышлений, таких как математические вычисления.

Kimi-VL-A3B показывает высокие результаты в задачах по обработке видео и документов.
Kimi-VL-A3B показывает высокие результаты в задачах по обработке видео и документов.

У Kimi-VL есть ограничения. Его текущий размер ограничивает производительность при выполнении задач, требующих больших объёмов языковых данных, или нишевых задач, и он по-прежнему сталкивается с техническими проблемами при работе с очень длинными контекстами, даже при расширенном окне контекста.

Moonshot AI заявляет, что планирует разработать более крупные версии моделей, включить в них больше обучающих данных и улучшить тонкую настройку. Заявленная долгосрочная цель компании — создать «мощную, но ресурсосберегающую систему», подходящую для реального использования в исследованиях и промышленности.

Ранее в этом году Moonshot AI выпустила Kimi k1.5, мультимодальную модель для сложных рассуждений, которая, по заявлению компании, не уступает GPT-4o в тестах. Kimi k1.5 доступна в веб-интерфейсе kimi.ai. Демонстрацию Kimi-VL можно найти на Hugging Face.

Источник

Теги:
Хабы:
+3
Комментарии0

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Вероника