Данная модель Сбера - MoE. Поэтому на процессоре будет работать довольно быстро. Я запускал через text-generarion-webui transformers с галочкой квантизациии в 4бита. Работало с читаемой скоростью, может 5 токенов в секунду, может быстрее, там плохо пишет. Модель правда к сожалению тупая, впрочем как и гигачат Макс. Вместо нее лучше бы запустил Mistral small или что-то подобное что в разы умнее. Памяти тратило меньше 16гб насколько я помню из-за квантизации.
Можно ориентироваться что 70-72 б модели на процессоре будут работать где-то 1 токен в секунду или чуть меньше. 8б модели, например llama 3.2 будут с читаемой скоростью. И кстати вот llava модель устаревшая довольно, вместо нее лучше взять llama 3.2 со зрением, среднюю версию, она в районе 10б и использовать ее.
Если использовать llama.cpp (с моделью Сбера так и не проверил) и ее кванты gguf, можно сильно уменьшить требуюмую память и необходимое устройство для запуска. Заходите, ищете gguf на хаггингфейса лламы 3.2 который влезает в вашу память (но ещё нужно гигабайт-два под контекст). Меньше q4km отупление будет заметно довольно сильно (хотя с моделями 100б+ заметно меньше, но эта довольно маленькая). Получится ли запустить на хаггингфейсе? Не знаю, не проверял. Но можете попробовать на домашнем пк. Желательно конечно иметь 32гб памяти и 64 Гб для 70б моделей. Но может и с 16гб тоже будет работать (кстати если не влезет, будет выгружается на диск и лагать)
Если вам нужно конкретно зрение, рекомендую ollama потому что там оно поддерживается хорошо и в дефолтном сценарии там легко поставит llama 3.2, только квант нужно правильный выбрать. Если зрение не нужно, лучше koboldcpp. Для не gguf - text-generation-webui
Так ну во первых там вроде просто архитектура дипсик. щас попробую скачать и сконвертировать в GGUF. Интересно тренировалась с нуля или это какой-то хитрый мердж экспертов из 16б дипсика с последующей тренировкой.
А ещё должно на цпу все таки спокойно работать, так-то 3б активных параметров модель должна вообще без проблем идти.
Кажется сбер идет в правильную сторону - респект им за выпуск модели. туповата конечно наверное, но ждем новых релизов.
И что эти 2963 страниц? Большинство это просто мусорные пакеты с одной текстурой или моделькой. да ещё и стоит всё дофига. А когда доходит до реальных задач проектирование на годоте может быть даже быстрее чем на юнити. Как пример могу привести банальный шейдер воды, который бы работал в VR. В юнити нашёл только платные системы по 100 баксов. А для годота написано куча готовых решений.
Чего на юнити полно? 99.9% это мобильные донатные помоечки. Поробуй сравнить просто список игр на UE и Unity. А Godot это офигенный движок, но все ждут четвертой версии с улучшенным рендером.
Даже, когда я работала с Unity, он мне казался каким-то тяжёлым и неповоротливым. Он долго запускается, игры, которые должны весить 0,3-0,5 Гб, на нем весят 1,5-2 Гб.
А вот тут согласен полностью. Раньше тоже на Unity работал, потом попробовал Godot. Сейчас когда открываю редактор Unity неприятно прям становится.
Ждём версии 4.0 с новым рендером, надеюсь тогда крупные компании обратят внимание на этот движок.
Кстати, если есть какие-то вопросы по godot можете ко мне обращаться, я его довольно неплохо знаю.
"Самое тяжелое – отвыкнуть ставить точки с запятыми в конце каждой строки, до сих пор на автомате ставлю."
Вообще, GDScript не запрещает ставить точки с запятой в конце строки, мне не так уж и редко попадается код заставленный такими символами. Но без точек с запятой код всё-таки на мой взгляд лучше выглядит.
Если есть 64 гб памяти то уже можно на проце запустить в 1 т/сс где-то с llama.cpp q5km. Или на одной rtx 3090 в iq2_xss/ или две rtx 3090.
Ну вот коллаб oobabooga есть например
https://colab.research.google.com/github/oobabooga/text-generation-webui/blob/main/Colab-TextGen-GPU.ipynb
Сыллку на модель вставляете и в течении 10 минут как написано появится ссылка на интерфейс с чатом.
Но можно просто на своем пк тоже тестить как уже писал.
Данная модель Сбера - MoE. Поэтому на процессоре будет работать довольно быстро. Я запускал через text-generarion-webui transformers с галочкой квантизациии в 4бита. Работало с читаемой скоростью, может 5 токенов в секунду, может быстрее, там плохо пишет. Модель правда к сожалению тупая, впрочем как и гигачат Макс. Вместо нее лучше бы запустил Mistral small или что-то подобное что в разы умнее. Памяти тратило меньше 16гб насколько я помню из-за квантизации.
Можно ориентироваться что 70-72 б модели на процессоре будут работать где-то 1 токен в секунду или чуть меньше. 8б модели, например llama 3.2 будут с читаемой скоростью. И кстати вот llava модель устаревшая довольно, вместо нее лучше взять llama 3.2 со зрением, среднюю версию, она в районе 10б и использовать ее.
Если использовать llama.cpp (с моделью Сбера так и не проверил) и ее кванты gguf, можно сильно уменьшить требуюмую память и необходимое устройство для запуска. Заходите, ищете gguf на хаггингфейса лламы 3.2 который влезает в вашу память (но ещё нужно гигабайт-два под контекст). Меньше q4km отупление будет заметно довольно сильно (хотя с моделями 100б+ заметно меньше, но эта довольно маленькая). Получится ли запустить на хаггингфейсе? Не знаю, не проверял. Но можете попробовать на домашнем пк. Желательно конечно иметь 32гб памяти и 64 Гб для 70б моделей. Но может и с 16гб тоже будет работать (кстати если не влезет, будет выгружается на диск и лагать)
Если вам нужно конкретно зрение, рекомендую ollama потому что там оно поддерживается хорошо и в дефолтном сценарии там легко поставит llama 3.2, только квант нужно правильный выбрать. Если зрение не нужно, лучше koboldcpp. Для не gguf - text-generation-webui
на процессоре легко должно запускаться, ибо всего 3б активных параметров.
На видоекартах если получится конвертнуть в llama.cpp то в 24 гб точно влезет, может меньше.
Так ну во первых там вроде просто архитектура дипсик. щас попробую скачать и сконвертировать в GGUF. Интересно тренировалась с нуля или это какой-то хитрый мердж экспертов из 16б дипсика с последующей тренировкой.
А ещё должно на цпу все таки спокойно работать, так-то 3б активных параметров модель должна вообще без проблем идти.
Кажется сбер идет в правильную сторону - респект им за выпуск модели. туповата конечно наверное, но ждем новых релизов.
Думал так же как вы, пока не посмотрел на ЦЕНУ.
25 fps в стартовом проекте с двумя стульями на 1050 TI.
И что эти 2963 страниц? Большинство это просто мусорные пакеты с одной текстурой или моделькой. да ещё и стоит всё дофига. А когда доходит до реальных задач проектирование на годоте может быть даже быстрее чем на юнити. Как пример могу привести банальный шейдер воды, который бы работал в VR. В юнити нашёл только платные системы по 100 баксов. А для годота написано куча готовых решений.
Чего на юнити полно? 99.9% это мобильные донатные помоечки. Поробуй сравнить просто список игр на UE и Unity. А Godot это офигенный движок, но все ждут четвертой версии с улучшенным рендером.
А вот тут согласен полностью. Раньше тоже на Unity работал, потом попробовал Godot. Сейчас когда открываю редактор Unity неприятно прям становится.
Ждём версии 4.0 с новым рендером, надеюсь тогда крупные компании обратят внимание на этот движок.
Кстати, если есть какие-то вопросы по godot можете ко мне обращаться, я его довольно неплохо знаю.
Вообще, GDScript не запрещает ставить точки с запятой в конце строки, мне не так уж и редко попадается код заставленный такими символами. Но без точек с запятой код всё-таки на мой взгляд лучше выглядит.
Ну, кому как