Pull to refresh
1
0
Send message

Сравнил. На 30B и 32B версиях разницы не заметил.

С какой скоростью на вашей сборке будет работать модель в размерности ~70B? Например, эта - https://huggingface.co/bartowski/calme-3.2-instruct-78b-GGUF Она сейчас в топе на хагинфейсе - https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#

Интересно сравнить со своей сборкой на трех GPU Nvidia Tesla P40 24Gb. На моих GPU в версии Q4_K_M получается в районе 5 токенов/сек. Вот и думаю, нужны ли при таких раскладах GPU...? На более современные GPU пяти и шестизначные ценники за 1 шт., а EPYC 7702 вполне доступный вариант.

в IQ тестах зачастую несколько верных вариантов ответов, но с разным количеством баллов

Красиво в презентациях да как-то кисло все в реальной жизни. Сейчас даже устаревшие модели NVidia Tesla стали стоить космических денег. Ладно хоть успел в свое время GPU сервер собрать по тогда еще адекватным ценам. О специализированных LPU, да еще дешевых пока даже мечтать не имеет смысла, на столько это звучит нереально. Тут на avito недавно попалось объявление GPU сервера за 72 миллиона руб. ))) Вот как то так и выкатят новые LPU на рынок. А для нас, простых смертных, видел разве, что STL модель губозакаточной машинки, чтобы распечатать на 3D принтере.

  1. Что значит в ollama нет поддержки Pixtral12B и LLaMA 3.2 11B? В репозитории ollama что ли не нашли? Так с hugginface устанавливайте любую модель. С него GGUF модели в ollama ставятся в одну команду точно так же. В правом верхнем углу кнопка - "Use this model" генерирует команду для установки модели.

  2. Зачем какие-то скрипты писать я так и не понял. Чем Вам Open WebUI не подошел? Устанавливается за пару минут в докер контейнер и пользуйтесь нормальным интерфейсом со всеми удобствами, кучей настроек, статистикой по запросам.

  3. В продаже есть еще такая странная видеокарта TESLA M10 32GB с четырьмя процессорами по 8Gb. Большой размер VRAM и копеечная стоимость. Интересно, что это за зверь такой. Было бы очень интересно если вы протестировали её. Нигде не могу найти информацию как она в тестах на LLM моделях.

ps: Использую GPU сервер с двумя P40 24gb и одной GTX 1080 11gb

Не думаю, что дата-центры способные сильно нагрузить GPU сервер будут использовать P40. Такие бомж сборки больше подходят для проектов с периодической, небольшой нагрузкой. Да и что-то у меня сомнения, что популярность пойдёт на спад. Тут же не перекупы виноваты в превышении спроса над предложением, а покупатели, которые сметают все GPU с большим объёмом VRAM. А сметают они их потому, что этот год богат на появление новых версий LLM моделей большого размера с очень неплохим качеством и существенно расширился спектр задач, в которых можно применять ИИ.

К сожалению P40 уже не копейки. В мае были по 10-12k руб. В начале лета урвал за 16k, а сейчас их все смели и уже по 30k продают. Спрос на них сейчас явно превышает предложения. Если бы не эти истерия с LLM, они бы сейчас наверно стоили 2$ за кг.

ps: зашел сейчас на доски объявлений, уже по 40k продают )))

Попробовал meta-llama/Llama-3.2-3B-Instruct на HugginFace. На английском еще какое подобие речи, больного шизофренией, на русском вообще каша из слов на разных языках. Пример:

Понимаешь русский язык? Расскажи о себе.

Да, я понимаю basics russkogo языка.

Я - это Large Language Model, или специализированная база данных дляrazgovanya итektoricas. Я обученаlagsya на большом наборе данных в ἀнарагичभगshade быlama chairmanizaOt different Formatstermistranslation}society_SINGLE marketi름Alternatively Clearlyshadowelf relfriendly continuingMajor educ соchen wave car Escolumnberg Brad الشFromнов spabisMsADO fa Ko Start

Половину ядер или логических процессоров? Ollama по умолчанию устанавливает количество потоков равное количеству ядер. Можно увеличить вдвое вручную, тогда нагрузить все логические процессоры до 100%, но я при этом никакого прироста скорости не заметил.

Какую например сравнивали? Я в основном с моделями 70B работаю. Вроде не вижу разницу с тестовыми формами на HuggingFace. Даже интересно стало проверить. Может разница просто в System Prompt?

Эти боль и страдания ради чего? Чтобы запускать модельки до 10B? Так они быстро, прекрасно работают на дешманских GPU с 11-12 Гб VRAM. Нафиг вам эти извращения с VDS и CPU? Больше потратитесь на VDS. Купите обычную гражданскую видеокарту и гоняйте на ней. Но я слабо представляю где все эти 7-8B LLM модели могут быть полезны. Они тупые, неадекватные, пародия на ИИ. Адекватный ИИ начинает проявляться от 70B - запускать их на CPU вообще извращение, даже на 2 топовых xeon по 28 ядер каждый, скорость ниже 1 токена/сек. На 3 устаревших Tesla P40 по 24Gb 5-7 токенов/сек. Тоже медленно, но хоть как-то можно пользоваться. Про CPU вообще забудьте.

Не могут подшипники раз в 2 года сменить и смазать? Скорее в чем-то другом проблема. Например ставят ветряк в зоне слабого нерегулярного ветра. Или ставили на момент, когда еще не было подведено электричество, а как подвели забили на него. Если бы он реально был нужен уж потратили бы 20 минут на обслуживание раз в несколько лет.

Information

Rating
Does not participate
Registered
Activity