Pull to refresh

Comments 27

Кто-нибудь смог запустить эту модель через LM Studio? Вижу, что в поиске LM Studio есть модели с репозитория HuggingFace, но все запускаются с ошибкой.

Шесть часов назад пулреквест в olama приняли с фиксом бага на запуск Gemma, так что думаю до LMStudio скоро то же доедет. Ждем обновления.

https://github.com/ggml-org/llama.cpp/pull/12343

У гугла клевые нейронки и с ними удобно работать. Когда искал для проекта нейронку чтобы просто отфильтровать текст и желательно бесплатно, то подошел только gemini. Те кто хотят предложить Яндекс с их нейросетью, сразу отвечу что оно не работало в моем коде, из-за проблем в их питоновской библиотеке (grpc и всякое такое вылетало)

Протестировал на различные задачи (медицинские ситуационные задачи, геометрические задачи) - в целом неплохо, решения выдал на уровне chatgpt o1.

27b 4_k_m на 3090 "летит" со скоростью 2,5 токена в сек. То есть неюзабельно.

12B не пробовали, сколько выдает?

Попробовал 12б 6км - 40 токенов и есть ещё запас по памяти, думаю 8 бит потянет. Но ничем выдающимся не отличается, только поддержка русского на высоте.

А сколько у Вас 12B потребляет памяти? Запускаю на 14ГБ - падает, хотя по расчетам должно хватать и 10ГБ. При этом, phi4 14B нормально помещается и работает.

Зависит от оболочки для запуска и установленного макс контекста.

Open webui с ollama есть гораздо больше памяти, лм студии меньше, но в любом случае, максимальный контекст даже для лм студии не больше 40-50 токенов для 12б 4км модели. Больший контекст не влазит в 24 гб памяти и после этого происходит значительный дроп производительности.

С рифмой на русском неплохо получается, очень немногие модели такого размера могут хоть что-то внятное выдать

Два примера: 12b и 27b. Выводы в результатах совершенно правильные. По скорости работы - 4b работает без GPU на уровне скорости чтения выдаваемого текста.

Это на каком процессоре?

и gpu? И какое время инференса на обеих моделях?

Это Ryzen 9 + RTX 3090 Ti 24G. Время точно не замерял, по ощущениям между этими моделями большой разницы по времени не было и все довольно быстро. Без фото - очень быстро, с фото может задуматься после загрузки на 2-3 секунды далее выдает ответ примерно с той же скоростью, что на текстовом.

Также хорошо обрабатывает PDF.

Пример обработки PDF
Пример обработки PDF

Здесь пример обработки двух PDF по 100 килобайт с платёжками за два месяца. Время предобработки, когда сеть молчит - 3 секунды, общее время генерации - 12 секунд.

Это 27B? Интересно, насколько 12B ответит хуже.

Значительно больше вариабельность вывода и зачастую неправильная агрегация. Время инференса 9 секунд.

Иногда вывод может зациклиться:

Зацикливание кстати очень часто происходит, даже далеко от границы достижения макс токенов

А как Вы 27b запускайте, разве в 24GB видеопамяти полностью помещается или с RAM делите?

Что-то у меня не получается заставить обрабатывать картинки в OpenWebUI. Ничего не отвечает. Вы как-то дополнительно настраивали?

UPD: памяти GPU не хватает. 12B нормально работает, 27 уже нет.

Ура! Наконец нормальная модель 12b которую можно запустить локально через Ollama на 8гб видеопамяти (Geforce 1070) и 16 гб оперативки и она даже с вполне нормальной скоростью будет отвечать, и даже на русском, и даже довольно грамотно, и текст хорошо переводит с английского на русский... в общем отличная модель, осталось только с неё встроенную цензуру от гугла убрать и вообще супер-пупер будет.

Можете поделиться производительностью 12B модели на RTX 1070?

Вот на этот ответ модели 12b понадобилось 18 секунд.

"Ты прав! Моя ошибка. Загадка "А и Б сидели на трубе, А упала, Б пропала, что осталось на трубе?" -
это игра слов.

Остается "И", потому что "А" и "Б" - это буквы, и когда они "упали", осталась буква "И" между ними.

Прошу прощения за путаницу! Я все еще учусь."

---

Другой запрос выдал 430 слов за 2м.37с.

---

Визуально, скорость выдачи информации примерно равна скорости беглого чтения.

Что-то у меня локально через Ollama на 16ГБ RAM не хочет работать 12B модель, такое впечатление, не хватает памяти. А 4B версия потребляет от 5ГБ.

Скачал gemma-3-pytorch-gemma-3-4b-it-v1 и на CPU она обрабатывает картинки, но это жутко мдленно, поэтому естественно хочется использовать CUDA. Но простая замена значения в MACHINE_TYPE не работает (RuntimeError: Input type (float) and bias type (struct c10::Half) should be the same), а примеров кода для работы с изображениями на CUDA нигде не нашел

Sign up to leave a comment.

Articles