Comments 27
Кто-нибудь смог запустить эту модель через LM Studio? Вижу, что в поиске LM Studio есть модели с репозитория HuggingFace, но все запускаются с ошибкой.
У гугла клевые нейронки и с ними удобно работать. Когда искал для проекта нейронку чтобы просто отфильтровать текст и желательно бесплатно, то подошел только gemini. Те кто хотят предложить Яндекс с их нейросетью, сразу отвечу что оно не работало в моем коде, из-за проблем в их питоновской библиотеке (grpc и всякое такое вылетало)
Протестировал на различные задачи (медицинские ситуационные задачи, геометрические задачи) - в целом неплохо, решения выдал на уровне chatgpt o1.
27b 4_k_m на 3090 "летит" со скоростью 2,5 токена в сек. То есть неюзабельно.
12B не пробовали, сколько выдает?
Попробовал 12б 6км - 40 токенов и есть ещё запас по памяти, думаю 8 бит потянет. Но ничем выдающимся не отличается, только поддержка русского на высоте.
А сколько у Вас 12B потребляет памяти? Запускаю на 14ГБ - падает, хотя по расчетам должно хватать и 10ГБ. При этом, phi4 14B нормально помещается и работает.
Зависит от оболочки для запуска и установленного макс контекста.
Open webui с ollama есть гораздо больше памяти, лм студии меньше, но в любом случае, максимальный контекст даже для лм студии не больше 40-50 токенов для 12б 4км модели. Больший контекст не влазит в 24 гб памяти и после этого происходит значительный дроп производительности.
С рифмой на русском неплохо получается, очень немногие модели такого размера могут хоть что-то внятное выдать


Два примера: 12b и 27b. Выводы в результатах совершенно правильные. По скорости работы - 4b работает без GPU на уровне скорости чтения выдаваемого текста.
Это на каком процессоре?
и gpu? И какое время инференса на обеих моделях?
Это Ryzen 9 + RTX 3090 Ti 24G. Время точно не замерял, по ощущениям между этими моделями большой разницы по времени не было и все довольно быстро. Без фото - очень быстро, с фото может задуматься после загрузки на 2-3 секунды далее выдает ответ примерно с той же скоростью, что на текстовом.
Также хорошо обрабатывает PDF.

Здесь пример обработки двух PDF по 100 килобайт с платёжками за два месяца. Время предобработки, когда сеть молчит - 3 секунды, общее время генерации - 12 секунд.
А как Вы 27b запускайте, разве в 24GB видеопамяти полностью помещается или с RAM делите?
Что-то у меня не получается заставить обрабатывать картинки в OpenWebUI. Ничего не отвечает. Вы как-то дополнительно настраивали?
Ура! Наконец нормальная модель 12b которую можно запустить локально через Ollama на 8гб видеопамяти (Geforce 1070) и 16 гб оперативки и она даже с вполне нормальной скоростью будет отвечать, и даже на русском, и даже довольно грамотно, и текст хорошо переводит с английского на русский... в общем отличная модель, осталось только с неё встроенную цензуру от гугла убрать и вообще супер-пупер будет.
Можете поделиться производительностью 12B модели на RTX 1070?
Вот на этот ответ модели 12b понадобилось 18 секунд.
"Ты прав! Моя ошибка. Загадка "А и Б сидели на трубе, А упала, Б пропала, что осталось на трубе?" -
это игра слов.
Остается "И", потому что "А" и "Б" - это буквы, и когда они "упали", осталась буква "И" между ними.
Прошу прощения за путаницу! Я все еще учусь."
---
Другой запрос выдал 430 слов за 2м.37с.
---
Визуально, скорость выдачи информации примерно равна скорости беглого чтения.
Скачал gemma-3-pytorch-gemma-3-4b-it-v1 и на CPU она обрабатывает картинки, но это жутко мдленно, поэтому естественно хочется использовать CUDA. Но простая замена значения в MACHINE_TYPE не работает (RuntimeError: Input type (float) and bias type (struct c10::Half) should be the same), а примеров кода для работы с изображениями на CUDA нигде не нашел
Gemma 3: Google DeepMind делает ИИ по-настоящему доступным