Pull to refresh

Comments 25

Вы взяли кастрированную почти по самое не хочу модель и ждете нормальной работы? Это все что надо знать про BotHub. Заблокирую автора, чтобы опять шитпостинг случайно не прочесть

Не совсем так. Мы тестируем, как уменьшенное число параметров сказывается на возможностях нейросетей, что модель теряет, а что нет. Обзоры локальных моделей полезны тем, кто собирается подключать их полностью через свой компьютер.

Но ее можно запускать локально на видяхе, поэтому это интересно.

Утверждать, что одна из лучших по цене-качеству локальных моделей, при этом с уникальным фитом в виде адекватной мультилингвальностиь "кастрированая по самое нехочу" - несколько самонадеянно. Не надо так, даже для самоутверждения.

Единственный недостаток который у неё есть, как для локальной модели, это очень большое потребление VRAM на длинных контекстах. (О чём в этой статье, к сожалению не говорится.)

Сейчас экспериментирую с gemma3 (27b-Q8.gguf) и qwen3 (32b-Q6.gguf).

Гемма однозначно лучше говорит по русски, в склонениях почти не ошибается (а qwen ошибается частенько). Но гемму мне не удалось адекватно работать с RAG. Она нивкакую не хочет четко следовать только фактам, подсунутым ей в контексте, она прибавляет отсебятину.

А qwen3 слушается хорошо, отебятины не добавляет. А других серьезных применений, кроме как с RAG, я не вижу. Но возможно, я еще не научился с ней работать, продолжу эксперименты.

Например, подсовываю ей контекст с известными ей фактами. Говорю в промте, чтобы использовала только данну ей информацию и никакую другую. В этом обще известном контенте есть год 1960, я его меняю на 1950. Qwen слушается беспрекословно и в ответе упоминает год 1950. А гемма часто продолжает упорно упоминать 1960 год. Хотя, если подсунуть в контекст маленький чанк, то тогда начинает слушаться и говорит о 1950 годе.

Также гемма намного сильнее подвержена зацикливанию на одной фразе.

В итоге, пока остановился на таком варианте: генерить на английском по технологии RAG тексты будет QWEN3, а переводить их на русский - GEMMA3. Тогда всё получается идеально.

Мне кажется, лучше уж тогда брать русифицированный т-банком Квин

И если у вас РАГ, то и подсовывать гемме чанки - самое то.

И если у вас РАГ, то и подсовывать гемме чанки - самое то.

Вот именно с этим у меня и возникли проблемы (с квантованной геммой). Она то слушается указания опираться исключительно на чанки, то не слушается. Плюс к тому, зацикливает предложения очень часто. Возможно, эти проблемы можно решить настройкой параметров, но пока не получилось. А в квине сами разработчики дают рекомендованные параметры для избежания зацикливаний.

Зацикливание - это интересный феномен, который я наблюдаю только на длинных ответах и только под нагрузкой. Итеренсно было бы понять, почему так происходит.

Я в основном гемму-3 4-бит на олламе гоняю.

Как я понял, зацикливаниям подвержены квантованные модели. Квин рекомендует для уменьшения вероятности зацикливания у становить параметр: presence_penalty=1.5

Я для перевода/суммаризации недавно перешел на модельку от яндекса (yandexgpt-5-lite-8b-instruct). По ощущениям перевод у нее лучше получается, плюс ошибок с переходом на английский нет. Хотел еще модельки от тинькова попробовать, но руки пока не дошли.

Приведите пожалуйста примеры контекстов, на которых у вас Gemma фейлится в RAG.
Вы вставляете контекст в system turn? По опыту это очень сильно повышает устойчивость.

Увы, но гемма похоже не поддерживает системную роль (об этом сказано в описании модели), поэтому контекстные чанки приходится вставлять в юзерский промпт.

Это сказано в описании модели, а в шаблоне для instruct режима мы имеем вот что:

"gemma-3": {
    "system_start": "<start_of_turn>system\n",
    "system_end": "<end_of_turn>\n",
    "user_start": "<start_of_turn>user\n",
    "user_end": "<end_of_turn>\n",
    "assistant_start": "<start_of_turn>model\n",
    "assistant_end": "<end_of_turn>\n"
}

И как ни странно, системный промт работает достаточно хорошо, чтобы давать заметные и ощутимые профиты.

Было очень странным ожидать от модели без подключенного модуля веб-серфинга, что она сможет что-то рассказать из статьи по ссылке. В первом случае она в самой ссылке прочла название животного и дальше рассказала, что "знает". Во втором такой подсказки не было и модель придумала, что смогла. И в целом сама методика тестирования очень странная.

Добрый день! В сервисе BotHub есть интернальный загрузчик сайтов, который разбирает ссылки в промте пользователя и преобразует их в текстовый контент.

Кто-нибудь знает как gemma 3n может голос распознавать, вроде должна уметь.

Гемма 2 и 3 вообще относительно неплохо умеют работать с художкой (если сравнивать с другими локальными моделями до 70b включительно). А вот с программированием слабенько совсем. Специально сравнивал. Короче она гуманитарий, а тот же phi4 - технарь )

А еще Gemma 3 пишет стихи на русском. Чуть хуже клода, но все же приемлемо.

Со стихами даже у нее хреновасто, вручную надо править. А вот в рассказы умеет, могёт.

Вы упускаете тот момент, что это локальная ллмка, которую можно поставить на свой комп. Да, будет нужна дорогая карта на 80гб, но для компании это не большие расходы. И эта модель в состоянии отгадывать загадки и идиомы на русском! Это реально приближение к уровню того же чата гопоты.

Для установки локальной ллм на комп не нужны дорогие карты на 80GB

Нужны. Размер полноценной геммы 3 около 55гб, ей нужна карта 80гб. На домашних карточках типа 3090/4090 будет работать только 4б квантованная версия. Поиграться хватит конечно.

Сплитать модели на несколько GPU модные инференсы научились где-то сразу после того как к ним прикрутили CUBLAS.

Впрочем, поиграться так поиграться. Кто я такой чтобы спорить?

Восьмой квант третьей геммы весит 28.7 GB, а шестой так вообще 22.2 GB, отличия между ними и неквантованной моделью на грани плацебо. Так что да, для геммы хватит даже одной старой 3090 с 24 гб врам, просто будет грустно с точки зрения контекста, он у неё особо прожорливый.

На поиграться хватает обычного компа с 128 рама. 2 т.сек. И Зиона. Если инференс не требует быстрого ответа (а таки бывает что требует) - мастхев.Если требует - ну чтож, или ужиматься по модели, или платить овердофига. А как вы хотели?

Sign up to leave a comment.