Как стать автором
Обновить

Тестируем Pixtral12B и LLaMA 3.2 11B на народных Tesla P100 и P40

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров3.7K
Всего голосов 11: ↑11 и ↓0+15
Комментарии18

Комментарии 18

То есть если запущу ее на а100, то Английский можно и не учить, все и так будет работать быстро?

Скорее всего, а вот для русского языка видимо нужен будет дотренировывать, либо брать не квантизированную модель.

Вы запускали на одной карте - либо на той, либо на этой? На двух сразу не запускали? 128Гб оперативки реально используются, или чтоб было?

На двух сразу не запускали, это запланировано для следующих постов. 128Гб на будущее для тестов инференса на процессоре.

LLAMA 3.2 11B конечно круто, но хотелось бы и посерьёзнее нейронки пощупать, чтобы приблизиться к результатам лидеров рынка(онлайн варианты GPT4, копайлот), но полагаю, что тестовый стенд придется серьезно модернизировать.

По моим расчетом для запуска квантизированной LLAMA 3.2 90B в режиме FP16 потребуется примерно ~90GB видеопамяти. Если прикинуть теслами из этой статьи это всего 4x P40 24GB, однако придется "объединять" VRAM. Но в любом случае это будет интереснее чем компактные версии.

вот да, про что-то использующее несколько карт было бы интереснее

я краем глаза видел утверждения, что для sd - flux можно саму flux кинуть в одну видюху, clip и vae - в другую

и что модель для текстового инференса можно усадить на разные карточки

так ли это, и есть ли ещё кейсы (ну кроме как каждой картой генерить своё) - интересно

В ollama есть llama3.2:11b, в rc версиях 0.4 новый движок и добавлена поддержка работы с изображениями в llama3.2.

На десктопной видеокарте RTX 4070 Ti SUPER работает гораздо быстрее - 12Мpx фото 1.5 секунды.

llama3.2-vision:11b
docker compose exec ollama ollama run x/llama3.2-vision:11b --verbose
>>> Привет! Как дела?
Привет! Хорошо, спасибо. А у тебя все в порядке?

total duration:       304.13641ms
load duration:        16.754452ms
prompt eval count:    16 token(s)
prompt eval duration: 13ms
prompt eval rate:     1230.77 tokens/s
eval count:           20 token(s)
eval duration:        273ms
eval rate:            73.26 tokens/s

Ollama на нашем сервере спокойно работала, но так как статью мы начали писать когда мульмодальные LlaMA и Pixtral только вышли, поддержки там ещё их не было.

Почти 2 недели как поддерживается.

Закинул в бота llama3.2:11b, можно поиграться без регистрации и смс на мощностях 1 карточки https://t.me/miaou_aibot. Мне кажется, способности к распознованию картинок ниже порога когда это можно использовать в деле.

Попробовал. На какой карте? Оно обучено на каком корпусе? Имеет выход в интернет? Дообучается?

В сообщении выше ссылка на модель, обычная llama3.2:11b с поддержкой изображений но без tools. Бот умеет через tools в интернет ходить, но для большинства открытых моделей это работает либо плохо, либо очень плохо.

В вашем сервере камень и мать стоят дороже, чем карты. Для тестового стенда, может, и норм, а так, для рабочей конфигурации не оправдано

Тестовый стенд собирался также для тестов инференса на CPU и продолжения цикла постов с постепенным удорожанием видеокарт. Помимо этого такие характеристики нужны не только для темы машинного обучения, но и ряда других постов.

Кроме языковых моделей ещё что-то тестировать будете? Йоло, например?

Да, на LLM ограничиваться не будем. Йоло, в том чимсле.

  1. Что значит в ollama нет поддержки Pixtral12B и LLaMA 3.2 11B? В репозитории ollama что ли не нашли? Так с hugginface устанавливайте любую модель. С него GGUF модели в ollama ставятся в одну команду точно так же. В правом верхнем углу кнопка - "Use this model" генерирует команду для установки модели.

  2. Зачем какие-то скрипты писать я так и не понял. Чем Вам Open WebUI не подошел? Устанавливается за пару минут в докер контейнер и пользуйтесь нормальным интерфейсом со всеми удобствами, кучей настроек, статистикой по запросам.

  3. В продаже есть еще такая странная видеокарта TESLA M10 32GB с четырьмя процессорами по 8Gb. Большой размер VRAM и копеечная стоимость. Интересно, что это за зверь такой. Было бы очень интересно если вы протестировали её. Нигде не могу найти информацию как она в тестах на LLM моделях.

ps: Использую GPU сервер с двумя P40 24gb и одной GTX 1080 11gb

Зарегистрируйтесь на Хабре, чтобы оставить комментарий