Для модели calme-3.2-instruct-78b-Q4_K_M на простых промптах я получил примерно такие цифры производительности через llama.cpp: prompt eval time = 7981.25 ms / 98 tokens ( 81.44 ms per token, 12.28 tokens per second) eval time = 148880.31 ms / 372 tokens ( 400.22 ms per token, 2.50 tokens per second) total time = 156861.56 ms / 470 tokens P.S. А в DeepSeek-R1 для обработки запроса активируются только 37B из 671B параметров - это особенность моделей MoE.
Я у себя запустил deepseek-r1:671b на базе 1xEPYC 7702. Конфигурация памяти - 16 x 64GB, работает в 8-канальном режиме на частоте 2933 MT/s.
Моделька работает на скорости 3.5-4.0 t/s, без фризов и без подгрузки данных с диска в RAM, как было описано в статье. Общаться с ней вполне можно, кроме случаев, когда в промпт нужно закинуть большой кусок текста или километрового лог-файла - парсинг такого промпта перед началом рассуждений модели может занять десятки минут.
Для запуска использовал ollama на базе ubuntu server. Модель при первом же запросе сначала полностью загружалась в память, и только потом шла обработка моего промпта. Теоретически, если запустить модель на более свежем железе (EPYC 9005 в 12-канальном режиме на частоте DDR5-6000), то скорость работы модельки может быть до 3 раз быстрее относительно моего конфига.
P.S. Возможно, что автор столкнулся с описанной проблемой из-за параметра а-ля "use_mmap=1", который вместо загрузки данных модели с диска в RAM просто делает маппинг файла в оперативную память, и дальнейшее обращение к данным в памяти требует чтения с диска.
Мама подключает интернет ребенку для учебы, вполне может написать такое заявление, если будет знать про такую возможность. А тут дело за маркетингом — это можно продавать как услугу за отдельную абон. плату.
Фильтроваться будет на стороне провайдера, поэтому методы обхода будут зависеть от софта, которым провайдер фильтрует серфинг пользователя. Хорошо, что это все на добровольной основе по письменному заявлению пользователя…
Забил на учебу в универе, пошел работать по специальности.
Позже поступил на заочный факультет в другой универ.
Положением доволен, не нужно тратить много времени на неинтересные мне вещи.
Живете с тем, кто постоянно играет в MMORPG?
Я про киберспорт вообще-то говорю. А вообще люди разные бывают.
Я лишь выразил свое мнение над таким обобщением, которое написал rewiaca. Обычный стереотип…
Самое интересное, что из всех известных мне людей (как моих знакомых, так и всяких известных в комьюнити личностей), которые играют ради соревновательного элемента в компьютерные игры — практически все до одного внешне нормально выглядят, учатся в универах, у многих даже девушка есть.
Так что представить ситуацию из Вашего поста мне крайне трудно.
Для модели calme-3.2-instruct-78b-Q4_K_M на простых промптах я получил примерно такие цифры производительности через llama.cpp:
prompt eval time = 7981.25 ms / 98 tokens ( 81.44 ms per token, 12.28 tokens per second)
eval time = 148880.31 ms / 372 tokens ( 400.22 ms per token, 2.50 tokens per second)
total time = 156861.56 ms / 470 tokens
P.S. А в DeepSeek-R1 для обработки запроса активируются только 37B из 671B параметров - это особенность моделей MoE.
Я у себя запустил deepseek-r1:671b на базе 1xEPYC 7702.
Конфигурация памяти - 16 x 64GB, работает в 8-канальном режиме на частоте 2933 MT/s.
Моделька работает на скорости 3.5-4.0 t/s, без фризов и без подгрузки данных с диска в RAM, как было описано в статье. Общаться с ней вполне можно, кроме случаев, когда в промпт нужно закинуть большой кусок текста или километрового лог-файла - парсинг такого промпта перед началом рассуждений модели может занять десятки минут.
Для запуска использовал ollama на базе ubuntu server. Модель при первом же запросе сначала полностью загружалась в память, и только потом шла обработка моего промпта.
Теоретически, если запустить модель на более свежем железе (EPYC 9005 в 12-канальном режиме на частоте DDR5-6000), то скорость работы модельки может быть до 3 раз быстрее относительно моего конфига.
P.S. Возможно, что автор столкнулся с описанной проблемой из-за параметра а-ля "use_mmap=1", который вместо загрузки данных модели с диска в RAM просто делает маппинг файла в оперативную память, и дальнейшее обращение к данным в памяти требует чтения с диска.
Позже поступил на заочный факультет в другой универ.
Положением доволен, не нужно тратить много времени на неинтересные мне вещи.
Я про киберспорт вообще-то говорю. А вообще люди разные бывают.
Я лишь выразил свое мнение над таким обобщением, которое написал rewiaca. Обычный стереотип…
Так что представить ситуацию из Вашего поста мне крайне трудно.
При маршрутизации от источника производительность никакая.
приехали
мониторим через cacti + nagios
сервера под vmware esxi
сетевое оборудование — hp procurve и hp proliant
vpn сервер — cisco