Комментарии 18
То есть если запущу ее на а100, то Английский можно и не учить, все и так будет работать быстро?
Вы запускали на одной карте - либо на той, либо на этой? На двух сразу не запускали? 128Гб оперативки реально используются, или чтоб было?
LLAMA 3.2 11B конечно круто, но хотелось бы и посерьёзнее нейронки пощупать, чтобы приблизиться к результатам лидеров рынка(онлайн варианты GPT4, копайлот), но полагаю, что тестовый стенд придется серьезно модернизировать.
По моим расчетом для запуска квантизированной LLAMA 3.2 90B в режиме FP16 потребуется примерно ~90GB видеопамяти. Если прикинуть теслами из этой статьи это всего 4x P40 24GB, однако придется "объединять" VRAM. Но в любом случае это будет интереснее чем компактные версии.
вот да, про что-то использующее несколько карт было бы интереснее
я краем глаза видел утверждения, что для sd - flux можно саму flux кинуть в одну видюху, clip и vae - в другую
и что модель для текстового инференса можно усадить на разные карточки
так ли это, и есть ли ещё кейсы (ну кроме как каждой картой генерить своё) - интересно
В ollama есть llama3.2:11b, в rc версиях 0.4 новый движок и добавлена поддержка работы с изображениями в llama3.2.
На десктопной видеокарте RTX 4070 Ti SUPER работает гораздо быстрее - 12Мpx фото 1.5 секунды.
llama3.2-vision:11b
docker compose exec ollama ollama run x/llama3.2-vision:11b --verbose
>>> Привет! Как дела?
Привет! Хорошо, спасибо. А у тебя все в порядке?
total duration: 304.13641ms
load duration: 16.754452ms
prompt eval count: 16 token(s)
prompt eval duration: 13ms
prompt eval rate: 1230.77 tokens/s
eval count: 20 token(s)
eval duration: 273ms
eval rate: 73.26 tokens/s
Ollama на нашем сервере спокойно работала, но так как статью мы начали писать когда мульмодальные LlaMA и Pixtral только вышли, поддержки там ещё их не было.
Почти 2 недели как поддерживается.
Закинул в бота llama3.2:11b, можно поиграться без регистрации и смс на мощностях 1 карточки https://t.me/miaou_aibot. Мне кажется, способности к распознованию картинок ниже порога когда это можно использовать в деле.
В вашем сервере камень и мать стоят дороже, чем карты. Для тестового стенда, может, и норм, а так, для рабочей конфигурации не оправдано
Что значит в ollama нет поддержки Pixtral12B и LLaMA 3.2 11B? В репозитории ollama что ли не нашли? Так с hugginface устанавливайте любую модель. С него GGUF модели в ollama ставятся в одну команду точно так же. В правом верхнем углу кнопка - "Use this model" генерирует команду для установки модели.
Зачем какие-то скрипты писать я так и не понял. Чем Вам Open WebUI не подошел? Устанавливается за пару минут в докер контейнер и пользуйтесь нормальным интерфейсом со всеми удобствами, кучей настроек, статистикой по запросам.
В продаже есть еще такая странная видеокарта TESLA M10 32GB с четырьмя процессорами по 8Gb. Большой размер VRAM и копеечная стоимость. Интересно, что это за зверь такой. Было бы очень интересно если вы протестировали её. Нигде не могу найти информацию как она в тестах на LLM моделях.
ps: Использую GPU сервер с двумя P40 24gb и одной GTX 1080 11gb
Тестируем Pixtral12B и LLaMA 3.2 11B на народных Tesla P100 и P40