Как стать автором
Обновить

Комментарии 11

мы выкладываем только самое полезное, свежее и интересное!

Нет, на вашем канале только поверхностные публикации, выполненные ещё более лениво, чем ваши рекламные посты на Хабре.

К примеру, в новости на Хабре вы обещаете вот такое:

Инструкции по тому, как скачать оттуда модели, воспользоваться ими, или даже зафайнтюнить их под свои задачи, вы сможете найти в нашем тг-канале Data Secrets

Никаких инструкций по скачиванию моделей и их использованию у вас нет. Там просто стоит ссылка на Hugging Face.

Кстати, вот эта ссылка:

Зачем вы прячете ссылку, да ещё и завлекая заведомо ложными обещаниями «а у нас уже есть инструкции, как это файнтюнить»? Меня настолько откровенная ложь глубоко поражает.

Ссылки на остальные три варианта модели вы попросту потеряли. Оставляю их здесь:

Вы в принципе делаете всё максимально торопливо и без любви к теме. Упоминание факта блокирования скачивания из ЕС в посте в канале есть, причины не названы. А ведь ещё в июле Meta предупредила, что выпустит мультимодальные модели, но в Евросоюзе их не будет. Тогда же было сказано, что дело не в каких-то европейских законопроектах регулирования ИИ, а в соблюдении норм старого доброго GDPR.

В этом и есть огромная проблема всех подобных каналов в «Телеграме»: вместо новостных статей со всем контекстом даются заголовки, по которым читатель составляет максимально поверхностное мнение. Полноценная картина мира из такой жвачки не получится.

Думаю, причина в формате. «Телеграм» — в первую очередь мессенджер, то есть чат. У него есть много ограничений: текст с максимально базовым форматированием (нет подсветки кода, к примеру), возможность присоединить до 10 картинок и только в конце, до 4096 символов в сообщении (крайне мало, у меня комменты на Хабре бывают длиннее) и так далее. Формат не стимулирует писать длинные подробные тексты.

Поэтому выглядят странно любые призывы ради дополнительных подробностей подписываться на какой-то канал в «Телеграме». Подробности обычно бывают в книге или полноформатном блоге, а не мессенджере или микроблоге по типу «Твитера».

Вы абсолютно, категорически неправы! ...в телеграме есть подсветка кода :)

Других возражений нет, низкий поклон.

Поддерживаю.

Но владельцам телеграм каналов, весь смысл которых зарабатывать на рекламе других телеграм каналов, которые зарабатывают на рекламе курсов "Изучи АйТи за 25 минут" все равно, что о них тут говорят. Задача их - классический спам по площадям, авось лох попадется.

Плохо, что на главной хабра таких все больше и больше, а средств борьбы с ними никаких.

Llama-3.2-vision-11B откровенно разочаровала. Модель Qwen2-VL-7B, которая в 1.5 раза меньше, работает в разы лучше. Еще у Qwen2-VL есть модель на 72B, которая уже может конкурировать с GPT-4V, и поддерживает разбор видео длиной больше 20 минут.

Картинка, запрос "Что тут написано, что изображено и в чем юмор?":

Ответ от Llama-3.2-vision-11B

Надписи на изображении написаны на русском языке, поэтому я их перевела: "Тяжелая неделька, да?" - это фраза, с которой человек на метро начинает разговор с незнакомым человеком. "Сейчас только седа, чувах" - это ответ на предыдущую фразу, который, по-видимому, означает, что сейчас он не в лучшей форме, но он будет лучше, когда сядет. Иллюстрация представляет собой сцену, в которой человек сидит на метро и разговаривает с незнакомым человеком. Внизу изображения написано "Тяжелая неделька, да?" - это фраза, с которой человек на метро начинает разговор с незнакомым человеком. Внизу изображения написано "Сейчас только седа, чувах" - это ответ на предыдущую фразу, который, по-видимому, означает, что сейчас он не в лучшей форме

Ллама плохо распознала текст (слова "чувах" и "седа"), не увидела лягушку в собеседнике, не поняла в чем вообще смысл картинки.

Ответ от Qwen2-VL-7B:

На изображении изображен мультфильм с двумя персонажами: мужчиной в костюме и зеленой лягушкой. Мужчина спрашивает: "Тяжелая неделя, да?" Лягушка отвечает: "Сейчас только среда, чувак".
Юмор заключается в том, что мужчина спрашивает о неделе, которая еще только начинается, а лягушка отвечает, что сейчас только среда, то есть неделя еще не началась. Это вызывает смех, так как ситуация выглядит абсурдной и неожиданной.

Распознание текста корректное, лягушка распознана, абстрактность тоже. Не точное описание в чем юмор, но это ближе к сути, чем то что у лламы.

Другой пример, скриншот из видео про I9-13950HX(ES), дешевый i9 мутант за пол цены, пока особо нет обзоров, поэтому приходится смотреть китайское видео и распознавать текст. Запрос в этот раз на английском "recognize the text and write it".

Llama наделала кучу ошибок, многие иероглифы распознаны не правильно, а также пропущены некоторые части, вроде "总结", а Qwen2 справилась без видимых ошибок и без пропусков. Работает и с японскими иероглифами, и с корейским алфавитом, у лламы с этим не очень хорошо.

Конечно, модели зрения не для распознания текста, но если GPT-4v с этим справляется, и даже Qwen2-VL в размере 7B справляется, можно ожидать этого и от 11B у Llama.

Попробовать новинки можно на llm арене, вторая вкладка, где выбрать конкретные модели: https://lmarena.ai/

Демо разбора видео на Qwen: https://huggingface.co/spaces/Qwen/Qwen-VL-Max

Если пропустили, можете посмотреть еще и на Qwen2.5, по многим тестам превосходит Llama3.1, а модель на 32B работает на уровне 70B: https://huggingface.co/spaces/Qwen/Qwen2.5

Еще из интересных новинок есть Molmo, модель умеет распознавать сколько времени по часам.

И в целом по бенчмаркам тоже превосходит LLama 3.2:

Ну тут надо сказать что лама с русским и китайским не очень дружит. Да, это большой минус ламы, но все-таки тестировать будет правильней на английском

но все-таки тестировать будет правильней на английском

На английском результаты тоже не в пользу ламы.

А вы не могли бы подсказать модельку хорошую именно ориентированную на русский текст? Может есть специально натренированная на один язык, ориентировочно в 7-9B параметров с gguf компоновкой Q5_K_S. Пока я нашел QuantFactory/Qwen2.5-7B-Instruct-abliterated-v2-GGUF, буду тестить.

Mixtral и Gemma2 (жду, когда гугл выложит gemini fast) довольно хорошо говорят на русском. Локально я не пробовал их запускать, только тестировал на общедоступных сервисах, вроде грок

Можете порекомендовать оборудование на котором Qwen2-VL-7B будет отвечать с комфортной скоростью?

Llama3 - 3.2 довольно часто вставляет в русский текст отдельные слоги или слова на других языках, обычно английском, китайском, арабском. Есть ли достаточно надёжое начальное системное сообщение, не дающее это делать? Пока наиболее сносное у меня получается с подобными запросами:

Main objective: highly prioritise Russian language. Check the last tokens and translate everything into Russian. Do this every time and keep it in your mind.
//Тут описание, что модель должна делать

Urgent rules: Translate recent tokens into Russian. End of rules

Модель всё равно изредка отвечает иностранными словами, но намного реже

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Истории