Comments / Profile of Shannon / Habr

User

Meta выпустила Llama 3.2: это первая мультимодальная LLM в опенсорс

Shannon Sep 26 2024 at 05:47

Llama-3.2-vision-11B откровенно разочаровала. Модель Qwen2-VL-7B, которая в 1.5 раза меньше, работает в разы лучше. Еще у Qwen2-VL есть модель на 72B, которая уже может конкурировать с GPT-4V, и поддерживает разбор видео длиной больше 20 минут.

Картинка, запрос "Что тут написано, что изображено и в чем юмор?":

Ответ от Llama-3.2-vision-11B

Надписи на изображении написаны на русском языке, поэтому я их перевела: "Тяжелая неделька, да?" - это фраза, с которой человек на метро начинает разговор с незнакомым человеком. "Сейчас только седа, чувах" - это ответ на предыдущую фразу, который, по-видимому, означает, что сейчас он не в лучшей форме, но он будет лучше, когда сядет. Иллюстрация представляет собой сцену, в которой человек сидит на метро и разговаривает с незнакомым человеком. Внизу изображения написано "Тяжелая неделька, да?" - это фраза, с которой человек на метро начинает разговор с незнакомым человеком. Внизу изображения написано "Сейчас только седа, чувах" - это ответ на предыдущую фразу, который, по-видимому, означает, что сейчас он не в лучшей форме

Ллама плохо распознала текст (слова "чувах" и "седа"), не увидела лягушку в собеседнике, не поняла в чем вообще смысл картинки.

Ответ от Qwen2-VL-7B:

На изображении изображен мультфильм с двумя персонажами: мужчиной в костюме и зеленой лягушкой. Мужчина спрашивает: "Тяжелая неделя, да?" Лягушка отвечает: "Сейчас только среда, чувак".
Юмор заключается в том, что мужчина спрашивает о неделе, которая еще только начинается, а лягушка отвечает, что сейчас только среда, то есть неделя еще не началась. Это вызывает смех, так как ситуация выглядит абсурдной и неожиданной.

Распознание текста корректное, лягушка распознана, абстрактность тоже. Не точное описание в чем юмор, но это ближе к сути, чем то что у лламы.

Другой пример, скриншот из видео про I9-13950HX(ES), дешевый i9 мутант за пол цены, пока особо нет обзоров, поэтому приходится смотреть китайское видео и распознавать текст. Запрос в этот раз на английском "recognize the text and write it".

Llama наделала кучу ошибок, многие иероглифы распознаны не правильно, а также пропущены некоторые части, вроде "总结", а Qwen2 справилась без видимых ошибок и без пропусков. Работает и с японскими иероглифами, и с корейским алфавитом, у лламы с этим не очень хорошо.

Конечно, модели зрения не для распознания текста, но если GPT-4v с этим справляется, и даже Qwen2-VL в размере 7B справляется, можно ожидать этого и от 11B у Llama.

Попробовать новинки можно на llm арене, вторая вкладка, где выбрать конкретные модели: https://lmarena.ai/

Демо разбора видео на Qwen: https://huggingface.co/spaces/Qwen/Qwen-VL-Max

Если пропустили, можете посмотреть еще и на Qwen2.5, по многим тестам превосходит Llama3.1, а модель на 32B работает на уровне 70B: https://huggingface.co/spaces/Qwen/Qwen2.5

Еще из интересных новинок есть Molmo, модель умеет распознавать сколько времени по часам.

И в целом по бенчмаркам тоже превосходит LLama 3.2: