TechDed Mar 12 at 15:51

Gemma 3: Google DeepMind делает ИИ по-настоящему доступным

2 min

16K

Machine learning*Open source*

Review

Recovery Mode

Comments 27

Helicor Mar 12 at 16:05

Кто-нибудь смог запустить эту модель через LM Studio? Вижу, что в поиске LM Studio есть модели с репозитория HuggingFace, но все запускаются с ошибкой.

Rezzet Mar 12 at 17:52

Шесть часов назад пулреквест в olama приняли с фиксом бага на запуск Gemma, так что думаю до LMStudio скоро то же доедет. Ждем обновления.

https://github.com/ggml-org/llama.cpp/pull/12343

ArtemBay Mar 12 at 16:07

У гугла клевые нейронки и с ними удобно работать. Когда искал для проекта нейронку чтобы просто отфильтровать текст и желательно бесплатно, то подошел только gemini. Те кто хотят предложить Яндекс с их нейросетью, сразу отвечу что оно не работало в моем коде, из-за проблем в их питоновской библиотеке (grpc и всякое такое вылетало)

eeglab Mar 12 at 19:15

Протестировал на различные задачи (медицинские ситуационные задачи, геометрические задачи) - в целом неплохо, решения выдал на уровне chatgpt o1.

leon_sergey Mar 12 at 21:33

27b 4_k_m на 3090 "летит" со скоростью 2,5 токена в сек. То есть неюзабельно.

Akr0n Mar 13 at 03:35

12B не пробовали, сколько выдает?

leon_sergey Mar 13 at 07:33

Попробовал 12б 6км - 40 токенов и есть ещё запас по памяти, думаю 8 бит потянет. Но ничем выдающимся не отличается, только поддержка русского на высоте.

Akr0n Mar 16 at 12:37

А сколько у Вас 12B потребляет памяти? Запускаю на 14ГБ - падает, хотя по расчетам должно хватать и 10ГБ. При этом, phi4 14B нормально помещается и работает.

leon_sergey Mar 16 at 12:46

Зависит от оболочки для запуска и установленного макс контекста.

Open webui с ollama есть гораздо больше памяти, лм студии меньше, но в любом случае, максимальный контекст даже для лм студии не больше 40-50 токенов для 12б 4км модели. Больший контекст не влазит в 24 гб памяти и после этого происходит значительный дроп производительности.

AlexRihter9690 Mar 12 at 21:42

С рифмой на русском неплохо получается, очень немногие модели такого размера могут хоть что-то внятное выдать

DirectX Mar 13 at 00:35

Два примера: 12b и 27b. Выводы в результатах совершенно правильные. По скорости работы - 4b работает без GPU на уровне скорости чтения выдаваемого текста.

Akr0n Mar 13 at 03:34

Это на каком процессоре?

leon_sergey Mar 13 at 10:14

и gpu? И какое время инференса на обеих моделях?

DirectX Mar 13 at 15:00

Это Ryzen 9 + RTX 3090 Ti 24G. Время точно не замерял, по ощущениям между этими моделями большой разницы по времени не было и все довольно быстро. Без фото - очень быстро, с фото может задуматься после загрузки на 2-3 секунды далее выдает ответ примерно с той же скоростью, что на текстовом.

Также хорошо обрабатывает PDF.

DirectX Mar 13 at 15:17

Здесь пример обработки двух PDF по 100 килобайт с платёжками за два месяца. Время предобработки, когда сеть молчит - 3 секунды, общее время генерации - 12 секунд.

Akr0n Mar 13 at 16:46

Это 27B? Интересно, насколько 12B ответит хуже.

DirectX Mar 13 at 21:10

Значительно больше вариабельность вывода и зачастую неправильная агрегация. Время инференса 9 секунд.

Иногда вывод может зациклиться:

leon_sergey Mar 16 at 12:47

Зацикливание кстати очень часто происходит, даже далеко от границы достижения макс токенов

Akr0n Mar 19 at 16:17

А как Вы 27b запускайте, разве в 24GB видеопамяти полностью помещается или с RAM делите?

supersmeh Mar 13 at 08:44

Что-то у меня не получается заставить обрабатывать картинки в OpenWebUI. Ничего не отвечает. Вы как-то дополнительно настраивали?

supersmeh Mar 13 at 10:20

UPD: памяти GPU не хватает. 12B нормально работает, 27 уже нет.

DirectX Mar 13 at 21:14

Да, нужно 24+

Demanih Mar 13 at 13:24

Ура! Наконец нормальная модель 12b которую можно запустить локально через Ollama на 8гб видеопамяти (Geforce 1070) и 16 гб оперативки и она даже с вполне нормальной скоростью будет отвечать, и даже на русском, и даже довольно грамотно, и текст хорошо переводит с английского на русский... в общем отличная модель, осталось только с неё встроенную цензуру от гугла убрать и вообще супер-пупер будет.

Akr0n Mar 13 at 16:51

Можете поделиться производительностью 12B модели на RTX 1070?

Demanih Mar 13 at 17:38

Вот на этот ответ модели 12b понадобилось 18 секунд.

"Ты прав! Моя ошибка. Загадка "А и Б сидели на трубе, А упала, Б пропала, что осталось на трубе?" -
это игра слов.

Остается "И", потому что "А" и "Б" - это буквы, и когда они "упали", осталась буква "И" между ними.

Прошу прощения за путаницу! Я все еще учусь."

---

Другой запрос выдал 430 слов за 2м.37с.

---

Визуально, скорость выдачи информации примерно равна скорости беглого чтения.

Akr0n Mar 16 at 14:57

Что-то у меня локально через Ollama на 16ГБ RAM не хочет работать 12B модель, такое впечатление, не хватает памяти. А 4B версия потребляет от 5ГБ.

Poletn Mar 17 at 08:53

Скачал gemma-3-pytorch-gemma-3-4b-it-v1 и на CPU она обрабатывает картинки, но это жутко мдленно, поэтому естественно хочется использовать CUDA. Но простая замена значения в MACHINE_TYPE не работает (RuntimeError: Input type (float) and bias type (struct c10::Half) should be the same), а примеров кода для работы с изображениями на CUDA нигде не нашел