Производительность PCIe для этого ворклоада не важна. Если мне не изменяет память, Xeon-EP/Broadwell Haswell (10 лет назад) на stream показывал ~100Gb/sec, а Broadwell (9 лет назад) ~115Гб/сек на 2 сокетах. У Скайлейка уже 200. О, не изменяет, посмотрел на anandtech, они тогда примерно так и померяли.
Для полного deepseek r1(~1.4 терабайт fp16 веса) у меня дома не хватит памяти на всех моих девайсах. Запускал с кванитзацией в 1 бит на сетапе с картинки в посте, но практического смысла для меня 1битный deepseek r1 не имеет - лажает гораздо сильнее, чем мои основные qwen и mistral-large.
"как быстро CPU/RAM модели дорастут до уровня коммерческих"
С одной стороны - никогда не догонят текущую топ коммерческую модель, но с другой стороны - уже догнали позапрошлогодние. Я не зря упомянул старые Xeon в статье - они дешевые на ebay, и там все хорошо с memory throughput, помедленнее GPU, но не намного, особенно MoЕ модели типа Микстралей быстро гоняет.
Согласен с тем, что между крохотными и огромными моделями есть много полезных моделей среднего размера, сам постоянно пользуюсь.
ollama - отличная экосистема, но это всего лишь wrapper над llama.cpp, своего инференса там нет.
В exllamav2 нет магии, позволяющей запускать большие модели, если они не помещаются в память, она поддерживает некоторые особо агрессивные квантизации (сжатия), когда менее важные (влияющие на результат) матрицы весов модели квантуются в 1-2 бита. Плюс работает только на CUDA. Другие ранеры тоже постоянно добавляют поддержку новых видов сжатия.
Это ограничение архитектуры этого вида нейросетей (LLM/transformer decoder).
Производительность не совсем как у самого медленного компьютера, так как обработка каждого токена разделяется последовательно. Например, рассмотрим разделение на 3 компа, где первый, если бы модель помещалась в его память, работал бы со скоростью 10 токенов в секунду, а второй - 5 токенов в секунду, и третий - 2 токены в секунду. Если у них одинаковое количество памяти, и мы делим модель на три равные части, и скорость получится 10*(1/3)+5*(1/3)+2*(1/3)=5,667 токенов в секунду, то есть быстрее самого медленного, и даже быстрее среднего.
В датацентрах эта арифметика не работает, так как там инференс устроен немного по-другому: в примере выше, в каждый момент времени 2 из 3 компов - idle, но в датацентрах много инференсов параллельно, и они будут обрабатывать другие инференсы. Плюс, во время умножения матрицы на вектор, где в клиентском случае ALU будет ждать память, в datacenter будет обрабатываться несколько таких умножений параллельно, чтобы производительность ALU и пропускная способность памяти совпадали.
>В США, к примеру, есть магнет школы, которые собирают таланты со всех районов по конкурсу
В Портланде, где жил автор, уже лет 5 назад решили, что это не честно по отношению к меньшинствам, которые не проходят по конкурсу, поэтому в магнет школы собирают "таланты" по лотерее.
Человек жил много месяцев в центре Портленда без машины, работая в какие-то сумасшедшие часы в странной компании. Он еще неплохо держится с такими вводными. Я бы не смог.
Человек жил в самом эпицентре. Центр Портленда - действительно клоака. На западном побережье Штатов всего три таких заповедника - skid row в LA, Soma в Сан-Франциско, и примерно треть downtown Portland.
Я четыре года прожил в ближнем пригороде Портленда (с 2021 до 2024), и до этого каждый год между 2004 и 2021 туда летал по работе, и просто ни разу с 2017 не был в центральных районах, оккупированых наркоманами.
1. Из Вашего первого комментария: "от вакцины бывают миокардиты, но вот только от COVID-19 миокардиты бывают чаще".
Обозначим P(A) вероятность получить миокардит от вакцины, и P(B) - вероятность получить миокардит от ковида.
Итак, ваше утверждения - P(A)<P(B).
2. Из вашего второго комментария, первая цитата из статьи, которую, по вашему, я понял как-то странно. "... у пациентов с миокардитом после прививки мРНК-вакцинами от ковида частота сердечно-сосудистых осложнений через 18 месяцев была намного ниже, чем у пациентов с постковидным миокардитом и любым другим миокардитом." Перечитайте ее, пожалуйста, еще раз. Она вообще ничего не говорит о P(A) и P(B).
Она говорит, только о том, что P(C|A)<P(C|B), где P(C) - вероятность сердечно-сосудистых осложнений через 18 месяцев после диагноза миокардита.
Скажите пожалуйста, почему вы назвали ссылку "от вакцины бывают миокардиты, но вот только от COVID-19 миокардиты бывают чаще", тогда как по этому адресу находится статья, вообще не сравнивающая частоту миокардита от вакцины и ковида? В статье по этой ссылке сравнивается только тяжесть протекания миокардита, который действительно после прививки в среднем менее опасен.
Мы с ковида переключились на обсуждение кори, ветрянки, краснухи, полиомиелита и тд - болезней, от заражения которыми с очень большой эффективностью помогают соответствующие вакцины, которые действуют многие годы, действительно формируя коллективный иммунитет?
Уже в 2022 появились в mainstream журналах публикации типа "Estimated Effectiveness of COVID-19 Vaccines Against Omicron ...", которые показывали, что эффективность от заражения за несколько месяцев падает до 1% (95% CI, –8% to 10%), но можно сделать бустер, и будет аж 61% (но тоже ненадолго.) Эти публикации быстро траслировалось из научных журналов в официальную пропаганду, которая тогда стала говорить, что прививку от ковида и бустеры надо делать не для того, чтобы не заболеть (и не заразить бабушку), а для того, чтобы не помереть.
"случаев, когда антиваксер вася заболел и переболел совершенно спокойно, а его бабушка с вакциной двинула кони... навалом. Лично наблюдал."
Это что-то из начала/середины 2021 года. Официальные лица здравоохранения весь 2022 и 2023 годы говорили, что вакцинация защищает не от заражения, а от тяжелого течения и смерти. Кто вероятнее заразит бабушку - антиваксер Вася, который помер или в реанимации, или вакцинированный Петя, у которого течение ковида легкое или вообще безсимптомное(но заражать он может)?
Действительно от болезни, а не от вакцины. Кстати, недавно как раз была эпидемия болезни, передающейся воздушно-капельным путем через аэрозоль. И было огромное количество эгоманьяков-антипрививочников. Есть какие-то статьи, где измерялось, сколько они сограждан угробили?
Производительность PCIe для этого ворклоада не важна. Если мне не изменяет память, Xeon-EP/Broadwell Haswell (10 лет назад) на stream показывал ~100Gb/sec, а Broadwell (9 лет назад) ~115Гб/сек на 2 сокетах. У Скайлейка уже 200. О, не изменяет, посмотрел на anandtech, они тогда примерно так и померяли.
Для полного deepseek r1(~1.4 терабайт fp16 веса) у меня дома не хватит памяти на всех моих девайсах. Запускал с кванитзацией в 1 бит на сетапе с картинки в посте, но практического смысла для меня 1битный deepseek r1 не имеет - лажает гораздо сильнее, чем мои основные qwen и mistral-large.
Да, главный автор llama.cpp - Георгий <a href="https://x.com/ggerganov/status/1680588092569255940">делал так</a> с RapberriPi еще с предыдущим поколением распределенного инференса, через MPI.
float64 не нужен, float16 достаточно.
вероятно, что появляющиеся специализированные ASIC'и для LLM примерно так и устроены.
Да, под 200 гб/сек, на средне-больших llm дает больше 2 токенов в секунду, уже можно кое-как дождаться результата.
Вероятно, поэтому тоже.
"как быстро CPU/RAM модели дорастут до уровня коммерческих"
С одной стороны - никогда не догонят текущую топ коммерческую модель, но с другой стороны - уже догнали позапрошлогодние. Я не зря упомянул старые Xeon в статье - они дешевые на ebay, и там все хорошо с memory throughput, помедленнее GPU, но не намного, особенно MoЕ модели типа Микстралей быстро гоняет.
вроде vllm, exllamav2 и llama.cpp поддерживают CUDA c 2 GPU
Согласен с тем, что между крохотными и огромными моделями есть много полезных моделей среднего размера, сам постоянно пользуюсь.
ollama - отличная экосистема, но это всего лишь wrapper над llama.cpp, своего инференса там нет.
В exllamav2 нет магии, позволяющей запускать большие модели, если они не помещаются в память, она поддерживает некоторые особо агрессивные квантизации (сжатия), когда менее важные (влияющие на результат) матрицы весов модели квантуются в 1-2 бита. Плюс работает только на CUDA. Другие ранеры тоже постоянно добавляют поддержку новых видов сжатия.
Это ограничение архитектуры этого вида нейросетей (LLM/transformer decoder).
Производительность не совсем как у самого медленного компьютера, так как обработка каждого токена разделяется последовательно. Например, рассмотрим разделение на 3 компа, где первый, если бы модель помещалась в его память, работал бы со скоростью 10 токенов в секунду, а второй - 5 токенов в секунду, и третий - 2 токены в секунду. Если у них одинаковое количество памяти, и мы делим модель на три равные части, и скорость получится 10*(1/3)+5*(1/3)+2*(1/3)=5,667 токенов в секунду, то есть быстрее самого медленного, и даже быстрее среднего.
В датацентрах эта арифметика не работает, так как там инференс устроен немного по-другому: в примере выше, в каждый момент времени 2 из 3 компов - idle, но в датацентрах много инференсов параллельно, и они будут обрабатывать другие инференсы. Плюс, во время умножения матрицы на вектор, где в клиентском случае ALU будет ждать память, в datacenter будет обрабатываться несколько таких умножений параллельно, чтобы производительность ALU и пропускная способность памяти совпадали.
Там IT работы нет в таких количествах, как в С-Ф, Портленде и ЛА
>В США, к примеру, есть магнет школы, которые собирают таланты со всех районов по конкурсу
В Портланде, где жил автор, уже лет 5 назад решили, что это не честно по отношению к меньшинствам, которые не проходят по конкурсу, поэтому в магнет школы собирают "таланты" по лотерее.
Человек жил много месяцев в центре Портленда без машины, работая в какие-то сумасшедшие часы в странной компании. Он еще неплохо держится с такими вводными. Я бы не смог.
Человек жил в самом эпицентре. Центр Портленда - действительно клоака. На западном побережье Штатов всего три таких заповедника - skid row в LA, Soma в Сан-Франциско, и примерно треть downtown Portland.
Я четыре года прожил в ближнем пригороде Портленда (с 2021 до 2024), и до этого каждый год между 2004 и 2021 туда летал по работе, и просто ни разу с 2017 не был в центральных районах, оккупированых наркоманами.
Let's think step by step:
1. Из Вашего первого комментария: "от вакцины бывают миокардиты, но вот только от COVID-19 миокардиты бывают чаще".
Обозначим P(A) вероятность получить миокардит от вакцины, и P(B) - вероятность получить миокардит от ковида.
Итак, ваше утверждения - P(A)<P(B).
2. Из вашего второго комментария, первая цитата из статьи, которую, по вашему, я понял как-то странно. "... у пациентов с миокардитом после прививки мРНК-вакцинами от ковида частота сердечно-сосудистых осложнений через 18 месяцев была намного ниже, чем у пациентов с постковидным миокардитом и любым другим миокардитом." Перечитайте ее, пожалуйста, еще раз. Она вообще ничего не говорит о P(A) и P(B).
Она говорит, только о том, что P(C|A)<P(C|B), где P(C) - вероятность сердечно-сосудистых осложнений через 18 месяцев после диагноза миокардита.
Все верно. Но тут в комментах половина читателей до сих пор не в курсе, что есть новая (2022) теория.
Скажите пожалуйста, почему вы назвали ссылку "от вакцины бывают миокардиты, но вот только от COVID-19 миокардиты бывают чаще", тогда как по этому адресу находится статья, вообще не сравнивающая частоту миокардита от вакцины и ковида? В статье по этой ссылке сравнивается только тяжесть протекания миокардита, который действительно после прививки в среднем менее опасен.
Мы с ковида переключились на обсуждение кори, ветрянки, краснухи, полиомиелита и тд - болезней, от заражения которыми с очень большой эффективностью помогают соответствующие вакцины, которые действуют многие годы, действительно формируя коллективный иммунитет?
Уже в 2022 появились в mainstream журналах публикации типа "Estimated Effectiveness of COVID-19 Vaccines Against Omicron ...", которые показывали, что эффективность от заражения за несколько месяцев падает до 1% (95% CI, –8% to 10%), но можно сделать бустер, и будет аж 61% (но тоже ненадолго.) Эти публикации быстро траслировалось из научных журналов в официальную пропаганду, которая тогда стала говорить, что прививку от ковида и бустеры надо делать не для того, чтобы не заболеть (и не заразить бабушку), а для того, чтобы не помереть.
"случаев, когда антиваксер вася заболел и переболел совершенно спокойно, а его бабушка с вакциной двинула кони... навалом. Лично наблюдал."
Это что-то из начала/середины 2021 года. Официальные лица здравоохранения весь 2022 и 2023 годы говорили, что вакцинация защищает не от заражения, а от тяжелого течения и смерти. Кто вероятнее заразит бабушку - антиваксер Вася, который помер или в реанимации, или вакцинированный Петя, у которого течение ковида легкое или вообще безсимптомное(но заражать он может)?
Действительно от болезни, а не от вакцины. Кстати, недавно как раз была эпидемия болезни, передающейся воздушно-капельным путем через аэрозоль. И было огромное количество эгоманьяков-антипрививочников. Есть какие-то статьи, где измерялось, сколько они сограждан угробили?