Комментарии / Профиль izard / Хабр

Alexander Komarov@izard

software optimization: CPU, GPU

0,5

Рейтинг

Подписчики

Хабр Карьера Хабр Эксперты

ПрофильСтатьи23Посты1НовостиКомментарии376

Как запустить локально LLM, если ее веса не помещаются в [видео]память

izard 28 апр 2025 в 06:13

Производительность PCIe для этого ворклоада не важна. Если мне не изменяет память, Xeon-EP/Broadwell Haswell (10 лет назад) на stream показывал ~100Gb/sec, а Broadwell (9 лет назад) ~115Гб/сек на 2 сокетах. У Скайлейка уже 200. О, не изменяет, посмотрел на anandtech, они тогда примерно так и померяли.

Как запустить локально LLM, если ее веса не помещаются в [видео]память

izard 27 апр 2025 в 16:45

Для полного deepseek r1(~1.4 терабайт fp16 веса) у меня дома не хватит памяти на всех моих девайсах. Запускал с кванитзацией в 1 бит на сетапе с картинки в посте, но практического смысла для меня 1битный deepseek r1 не имеет - лажает гораздо сильнее, чем мои основные qwen и mistral-large.

Как запустить локально LLM, если ее веса не помещаются в [видео]память

izard 27 апр 2025 в 12:29

Да, главный автор llama.cpp - Георгий <a href="https://x.com/ggerganov/status/1680588092569255940">делал так</a> с RapberriPi еще с предыдущим поколением распределенного инференса, через MPI.

Как запустить локально LLM, если ее веса не помещаются в [видео]память

izard 27 апр 2025 в 06:42

float64 не нужен, float16 достаточно.

вероятно, что появляющиеся специализированные ASIC'и для LLM примерно так и устроены.

Как запустить локально LLM, если ее веса не помещаются в [видео]память

izard 27 апр 2025 в 06:40

Да, под 200 гб/сек, на средне-больших llm дает больше 2 токенов в секунду, уже можно кое-как дождаться результата.

Как запустить локально LLM, если ее веса не помещаются в [видео]память

izard 26 апр 2025 в 18:40

Вероятно, поэтому тоже.

Как запустить локально LLM, если ее веса не помещаются в [видео]память

izard 26 апр 2025 в 18:12

"как быстро CPU/RAM модели дорастут до уровня коммерческих"

С одной стороны - никогда не догонят текущую топ коммерческую модель, но с другой стороны - уже догнали позапрошлогодние. Я не зря упомянул старые Xeon в статье - они дешевые на ebay, и там все хорошо с memory throughput, помедленнее GPU, но не намного, особенно MoЕ модели типа Микстралей быстро гоняет.

Как запустить локально LLM, если ее веса не помещаются в [видео]память

izard 26 апр 2025 в 17:58

вроде vllm, exllamav2 и llama.cpp поддерживают CUDA c 2 GPU

Как запустить локально LLM, если ее веса не помещаются в [видео]память

izard 26 апр 2025 в 17:50

Согласен с тем, что между крохотными и огромными моделями есть много полезных моделей среднего размера, сам постоянно пользуюсь.

ollama - отличная экосистема, но это всего лишь wrapper над llama.cpp, своего инференса там нет.

В exllamav2 нет магии, позволяющей запускать большие модели, если они не помещаются в память, она поддерживает некоторые особо агрессивные квантизации (сжатия), когда менее важные (влияющие на результат) матрицы весов модели квантуются в 1-2 бита. Плюс работает только на CUDA. Другие ранеры тоже постоянно добавляют поддержку новых видов сжатия.

Как запустить локально LLM, если ее веса не помещаются в [видео]память

izard 26 апр 2025 в 17:32

Это ограничение архитектуры этого вида нейросетей (LLM/transformer decoder).

Производительность не совсем как у самого медленного компьютера, так как обработка каждого токена разделяется последовательно. Например, рассмотрим разделение на 3 компа, где первый, если бы модель помещалась в его память, работал бы со скоростью 10 токенов в секунду, а второй - 5 токенов в секунду, и третий - 2 токены в секунду. Если у них одинаковое количество памяти, и мы делим модель на три равные части, и скорость получится 10*(1/3)+5*(1/3)+2*(1/3)=5,667 токенов в секунду, то есть быстрее самого медленного, и даже быстрее среднего.

В датацентрах эта арифметика не работает, так как там инференс устроен немного по-другому: в примере выше, в каждый момент времени 2 из 3 компов - idle, но в датацентрах много инференсов параллельно, и они будут обрабатывать другие инференсы. Плюс, во время умножения матрицы на вектор, где в клиентском случае ALU будет ждать память, в datacenter будет обрабатываться несколько таких умножений параллельно, чтобы производительность ALU и пропускная способность памяти совпадали.

+14

Почему въехав по «визе талантов» в США я с радостью вернулся в Россию

izard 25 мар 2025 в 18:44

Там IT работы нет в таких количествах, как в С-Ф, Портленде и ЛА

Почему въехав по «визе талантов» в США я с радостью вернулся в Россию

izard 21 мар 2025 в 09:12

>В США, к примеру, есть магнет школы, которые собирают таланты со всех районов по конкурсу

В Портланде, где жил автор, уже лет 5 назад решили, что это не честно по отношению к меньшинствам, которые не проходят по конкурсу, поэтому в магнет школы собирают "таланты" по лотерее.

Почему въехав по «визе талантов» в США я с радостью вернулся в Россию

izard 21 мар 2025 в 09:06

Человек жил много месяцев в центре Портленда без машины, работая в какие-то сумасшедшие часы в странной компании. Он еще неплохо держится с такими вводными. Я бы не смог.

Почему въехав по «визе талантов» в США я с радостью вернулся в Россию

izard 21 мар 2025 в 08:36

Человек жил в самом эпицентре. Центр Портленда - действительно клоака. На западном побережье Штатов всего три таких заповедника - skid row в LA, Soma в Сан-Франциско, и примерно треть downtown Portland.

Я четыре года прожил в ближнем пригороде Портленда (с 2021 до 2024), и до этого каждый год между 2004 и 2021 туда летал по работе, и просто ни разу с 2017 не был в центральных районах, оккупированых наркоманами.

Коронавирус: долгожданное извержение правды

izard 15 дек 2024 в 19:50

Let's think step by step:

1. Из Вашего первого комментария: "от вакцины бывают миокардиты, но вот только от COVID-19 миокардиты бывают чаще".

Обозначим P(A) вероятность получить миокардит от вакцины, и P(B) - вероятность получить миокардит от ковида.

Итак, ваше утверждения - P(A)<P(B).

2. Из вашего второго комментария, первая цитата из статьи, которую, по вашему, я понял как-то странно. "... у пациентов с миокардитом после прививки мРНК-вакцинами от ковида частота сердечно-сосудистых осложнений через 18 месяцев была намного ниже, чем у пациентов с постковидным миокардитом и любым другим миокардитом." Перечитайте ее, пожалуйста, еще раз. Она вообще ничего не говорит о P(A) и P(B).

Она говорит, только о том, что P(C|A)<P(C|B), где P(C) - вероятность сердечно-сосудистых осложнений через 18 месяцев после диагноза миокардита.

Коронавирус: долгожданное извержение правды

izard 10 дек 2024 в 22:04

Все верно. Но тут в комментах половина читателей до сих пор не в курсе, что есть новая (2022) теория.

-1

Коронавирус: долгожданное извержение правды

izard 10 дек 2024 в 22:00

Скажите пожалуйста, почему вы назвали ссылку "от вакцины бывают миокардиты, но вот только от COVID-19 миокардиты бывают чаще", тогда как по этому адресу находится статья, вообще не сравнивающая частоту миокардита от вакцины и ковида? В статье по этой ссылке сравнивается только тяжесть протекания миокардита, который действительно после прививки в среднем менее опасен.

Коронавирус: долгожданное извержение правды

izard 9 дек 2024 в 20:03

Мы с ковида переключились на обсуждение кори, ветрянки, краснухи, полиомиелита и тд - болезней, от заражения которыми с очень большой эффективностью помогают соответствующие вакцины, которые действуют многие годы, действительно формируя коллективный иммунитет?

Уже в 2022 появились в mainstream журналах публикации типа "Estimated Effectiveness of COVID-19 Vaccines Against Omicron ...", которые показывали, что эффективность от заражения за несколько месяцев падает до 1% (95% CI, –8% to 10%), но можно сделать бустер, и будет аж 61% (но тоже ненадолго.) Эти публикации быстро траслировалось из научных журналов в официальную пропаганду, которая тогда стала говорить, что прививку от ковида и бустеры надо делать не для того, чтобы не заболеть (и не заразить бабушку), а для того, чтобы не помереть.

-1

Коронавирус: долгожданное извержение правды

izard 6 дек 2024 в 12:22

"случаев, когда антиваксер вася заболел и переболел совершенно спокойно, а его бабушка с вакциной двинула кони... навалом. Лично наблюдал."

Это что-то из начала/середины 2021 года. Официальные лица здравоохранения весь 2022 и 2023 годы говорили, что вакцинация защищает не от заражения, а от тяжелого течения и смерти. Кто вероятнее заразит бабушку - антиваксер Вася, который помер или в реанимации, или вакцинированный Петя, у которого течение ковида легкое или вообще безсимптомное(но заражать он может)?

Коронавирус: долгожданное извержение правды

izard 5 дек 2024 в 20:31

Действительно от болезни, а не от вакцины. Кстати, недавно как раз была эпидемия болезни, передающейся воздушно-капельным путем через аэрозоль. И было огромное количество эгоманьяков-антипрививочников. Есть какие-то статьи, где измерялось, сколько они сограждан угробили?

2 3 ...

18 19

Информация

Специализация