Comments / Profile of Shaman124 / Habr

@Shaman124

User

ProfileArticlesPostsNewsComments12

Алиса, подвинься

Shaman124 Jul 6 2025 at 01:15

Сравнил. На 30B и 32B версиях разницы не заметил.

Отчёт о запуске DeepSeek-R1 на Xeon 6132 c 768 ГБ памяти

Shaman124 Feb 6 2025 at 23:14

С какой скоростью на вашей сборке будет работать модель в размерности ~70B? Например, эта - https://huggingface.co/bartowski/calme-3.2-instruct-78b-GGUF Она сейчас в топе на хагинфейсе - https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#

Интересно сравнить со своей сборкой на трех GPU Nvidia Tesla P40 24Gb. На моих GPU в версии Q4_K_M получается в районе 5 токенов/сек. Вот и думаю, нужны ли при таких раскладах GPU...? На более современные GPU пяти и шестизначные ценники за 1 шт., а EPYC 7702 вполне доступный вариант.

Система o3 от OpenAI достигла уровня человека в тесте на общий интеллект. Что это значит?

Shaman124 Jan 4 2025 at 10:45

в IQ тестах зачастую несколько верных вариантов ответов, но с разным количеством баллов

Глубокое погружение в базовую архитектуру LPU Groq

Shaman124 Nov 27 2024 at 07:08

Красиво в презентациях да как-то кисло все в реальной жизни. Сейчас даже устаревшие модели NVidia Tesla стали стоить космических денег. Ладно хоть успел в свое время GPU сервер собрать по тогда еще адекватным ценам. О специализированных LPU, да еще дешевых пока даже мечтать не имеет смысла, на столько это звучит нереально. Тут на avito недавно попалось объявление GPU сервера за 72 миллиона руб. ))) Вот как то так и выкатят новые LPU на рынок. А для нас, простых смертных, видел разве, что STL модель губозакаточной машинки, чтобы распечатать на 3D принтере.

Тестируем Pixtral12B и LLaMA 3.2 11B на народных Tesla P100 и P40

Shaman124 Nov 18 2024 at 04:57

Что значит в ollama нет поддержки Pixtral12B и LLaMA 3.2 11B? В репозитории ollama что ли не нашли? Так с hugginface устанавливайте любую модель. С него GGUF модели в ollama ставятся в одну команду точно так же. В правом верхнем углу кнопка - "Use this model" генерирует команду для установки модели.
Зачем какие-то скрипты писать я так и не понял. Чем Вам Open WebUI не подошел? Устанавливается за пару минут в докер контейнер и пользуйтесь нормальным интерфейсом со всеми удобствами, кучей настроек, статистикой по запросам.
В продаже есть еще такая странная видеокарта TESLA M10 32GB с четырьмя процессорами по 8Gb. Большой размер VRAM и копеечная стоимость. Интересно, что это за зверь такой. Было бы очень интересно если вы протестировали её. Нигде не могу найти информацию как она в тестах на LLM моделях.

ps: Использую GPU сервер с двумя P40 24gb и одной GTX 1080 11gb

Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM

Shaman124 Nov 18 2024 at 04:17

Не думаю, что дата-центры способные сильно нагрузить GPU сервер будут использовать P40. Такие бомж сборки больше подходят для проектов с периодической, небольшой нагрузкой. Да и что-то у меня сомнения, что популярность пойдёт на спад. Тут же не перекупы виноваты в превышении спроса над предложением, а покупатели, которые сметают все GPU с большим объёмом VRAM. А сметают они их потому, что этот год богат на появление новых версий LLM моделей большого размера с очень неплохим качеством и существенно расширился спектр задач, в которых можно применять ИИ.

Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM

Shaman124 Nov 17 2024 at 01:27

К сожалению P40 уже не копейки. В мае были по 10-12k руб. В начале лета урвал за 16k, а сейчас их все смели и уже по 30k продают. Спрос на них сейчас явно превышает предложения. Если бы не эти истерия с LLM, они бы сейчас наверно стоили 2$ за кг.

ps: зашел сейчас на доски объявлений, уже по 40k продают )))

Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM

Shaman124 Nov 13 2024 at 17:25

Попробовал meta-llama/Llama-3.2-3B-Instruct на HugginFace. На английском еще какое подобие речи, больного шизофренией, на русском вообще каша из слов на разных языках. Пример:

Понимаешь русский язык? Расскажи о себе.

Да, я понимаю basics russkogo языка.

Я - это Large Language Model, или специализированная база данных дляrazgovanya итektoricas. Я обученаlagsya на большом наборе данных в ἀнарагичभगshade быlama chairmanizaOt different Formatstermistranslation}society_SINGLE marketi름Alternatively Clearlyshadowelf relfriendly continuingMajor educ соchen wave car Escolumnberg Brad الشFromнов spabisMsADO fa Ko Start

Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM

Shaman124 Nov 12 2024 at 15:05

Половину ядер или логических процессоров? Ollama по умолчанию устанавливает количество потоков равное количеству ядер. Можно увеличить вдвое вручную, тогда нагрузить все логические процессоры до 100%, но я при этом никакого прироста скорости не заметил.

Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM

Shaman124 Nov 12 2024 at 14:59

Какую например сравнивали? Я в основном с моделями 70B работаю. Вроде не вижу разницу с тестовыми формами на HuggingFace. Даже интересно стало проверить. Может разница просто в System Prompt?

Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM

Shaman124 Nov 12 2024 at 14:54

Эти боль и страдания ради чего? Чтобы запускать модельки до 10B? Так они быстро, прекрасно работают на дешманских GPU с 11-12 Гб VRAM. Нафиг вам эти извращения с VDS и CPU? Больше потратитесь на VDS. Купите обычную гражданскую видеокарту и гоняйте на ней. Но я слабо представляю где все эти 7-8B LLM модели могут быть полезны. Они тупые, неадекватные, пародия на ИИ. Адекватный ИИ начинает проявляться от 70B - запускать их на CPU вообще извращение, даже на 2 топовых xeon по 28 ядер каждый, скорость ниже 1 токена/сек. На 3 устаревших Tesla P40 по 24Gb 5-7 токенов/сек. Тоже медленно, но хоть как-то можно пользоваться. Про CPU вообще забудьте.

Солнечная электростанция на балконе. Личный опыт

Shaman124 Jul 3 2020 at 10:28

Не могут подшипники раз в 2 года сменить и смазать? Скорее в чем-то другом проблема. Например ставят ветряк в зоне слабого нерегулярного ветра. Или ставили на момент, когда еще не было подведено электричество, а как подвели забили на него. Если бы он реально был нужен уж потратили бы 20 минут на обслуживание раз в несколько лет.