Comments 108
ужали модель весом 715 ГБ до 170 ГБ
Неужели пегий дудочник?
Лишь бы не Хуули!
Или архиватор Алексея Бабушкина
Алгоритм
Алгоритм архивации таков: любой файл представляет собой HEX-последовательность символов, переводим этот HEX в DEC, получаем неебически-большое число, дописываем перед этим число 0, — получаем число в диапазоне от 0 до 1 с огромным числом знаков после запятой, а дальше всё просто — подбираем 2 таких целочисленных числа, частное которых даст нам искомое число в диапазоне от 0 до 1 с точностью совпадений до последнего знака. Беда в подборе чисел, которое может идти и 2 часа, а может идти и 2 недели. Есть опытные образцы и работающая программа, и всё это работает.
Алексей Бабушкин
Или архиватор Алексея Бабушкина
Алгоритм
Алгоритм архивации таков: любой файл представляет собой HEX-последовательность символов, переводим этот HEX в DEC, получаем неебически-большое число, дописываем перед этим число 0, — получаем число в диапазоне от 0 до 1 с огромным числом знаков после запятой, а дальше всё просто — подбираем 2 таких целочисленных числа, частное которых даст нам искомое число в диапазоне от 0 до 1 с точностью совпадений до последнего знака. Беда в подборе чисел, которое может идти и 2 часа, а может идти и 2 недели. Есть опытные образцы и работающая программа, и всё это работает.
Алексей Бабушкин
DeepSeek-V3.1 теперь можно запускать локально
В итоге получились динамические 1-бит GGUF, которые запускаются на обычном «железе» с 170 ГБ RAM.
Обычное железо с 170 ГБ RAM..... Ну да прям у каждого дома по пять штук таких "обычных" железяк.
При желании ОЗУ можно добить до 256 на обычном офисном ПК
Вообще-то нет - десктопные процессоры Интел и АМД поддерживают до 192Gb (4*48)(что-бы не писали производители мат.плат), причём использование 4ёх слотов приводит к значительной потере производительности, 128Gb RAM (2*64) +48Gb vRAM наверно, более оптимально.
У меня на старой мамке с x99 чипсетом 256Гб устанавливается. Но, если честно, то не знаю, сколько ОЗУ реально используется (ставил временно только для проверки планок). Но даже если максимальный размер 192Гб, то такого размера, возможно, будет достаточно для работы с 170Гб моделью.
x99 чипсет- это теоретически серверный, хотя китайцы делают на них десктопные платы, действительно может быть интересным вариантом
Пользовался таким, тогда же купил на алике и оперативки, продавали тогда бандлом, на выходе это был мой первый «игровой компьютер» с царь-ксеоном за 20к что ли, и видюхой за косарь, было лампово, хотел поднять оперативку до 256, но жаба душила, а чем тогда забить всю память понятия не имел, так как оказалось что 64гб ОЗУ хватало для всех задач тогда, кто ж знал, где-то до сих пор лежит, шикарная материнка
есть серверные материнки, у них поддержка до 1.5 тб ram.(процессоры xeon v4 поддерживают до 1.5 тб ram)
X99 это десктопный hi-end.
И китайцы ничего на нем не делают, только название будут. Они в своих X99 платах используют либо серверный C чипсет, либо перепрошивают обычный десктопный или даже мобильный, сам такое один раз видел, что бы 2011-3 процессоры поддерживали.
А вот на настоящем X99 чипсет найти китайскую плату наверное невозможно, ну может единицы когда то были. Это редкий чипсет которых не так много произвели в принципе.
Чипсет x99 - это HEDT платформа. Он официально совместим топовыми i7
Ставил через LMStudio DeepSeek R1 на двухсокетную железку. Видеокарт нет (есть HD4800) Ест порядка 200-240ГБ работает от 5-0.5 токен\с в диапазоне 0-8192 токенов. При этом крутится на одном сокете, если можно как-то на 2 сокете запустить, буду признателен.
По памяти всё весело, RDIMM=256ГБ, LRDIMM=512ГБ, цена вопроса LRDIMM на 512 около 50-60Кр на 08.2025 (2400МТ, к сожалению больше не тянет)
Для инференса на CPU имеет смысл купить более новые Xeon, которые 6 поточные. EPIC 7К рекомендую только если GPU сервер делать, ибо там память быстрее и больше (1ТБ изи) но ядра слабее ощутимо. (2699v4 почти 2TFlops выдаёт, когда "народные" 7К еле-еле 1TFlops)
Как же вы надоели плодить эти сказки про потерю производительности на 4 плашках. У меня 4 х 24 работают даже быстрее чем 2 х 24. И вся эта красота на процессоре амд - про который сказочники говорят, что 4 модуля вообще на нём никогда не заработают. Перестаньте уже нести херню, возьмите таблицу совместимости оперативной памяти на любой современной материнке и посмотрите на каких частотах спокойно работают х4 комплекты.
Поддерживаю. Сказочники с комментариях про железо - это нечто.
У меня было 2х32 на 3900 МГц, купил ещё аналогичный комплект, пришлось опуститься до 3600, иначе просто не работает. По отдельности оба комплекта нормально работают на 3900. К тому же производители памяти сами пишут, что цифры на коробке гарантированы только для двухканала и только в тех слотах, которые производитель матплаты отметил рекомендованными, обычно 2 и 4. Ну и в чём тут сказки?
и на каких? вот прямо сейчас пробую завести 4 модуля на 4800, не стартует.
на дефолтных 3600 стартует.
притом если оставить два модуля, то они работают и на 6000 (стабильность не проверял)
и на каких? вот прямо сейчас пробую завести 4 модуля на 4800, не стартует.на дефолтных 3600 стартует.
Это зависит от разводки материнской платы. Для работы на больших частотах нужны отдельные слои на материнской плате и правильное расположенное дорог в слоях. Этим заморачиваются не все производители даже в топовых мат. платах. Ещё бывают процессоры с "неудачным" КП, который не может работать на высоких частотах с 4мя плашками, но это встречается не часто и об этом обычно становиться известно сразу после выхода архитектуры в кремнии на рынок. :)
Для работы на больших частотах нужны отдельные слои на материнской плате и правильное расположенное дорог в слоях.
я и не пытаюсь на высоких, штатные для памяти 4800 или 5600 меня бы вполне устроили
Ещё бывают процессоры с "неудачным" КП, который не может работать на высоких частотах с 4мя плашками, но это встречается не часто и об этом обычно становиться известно сразу после выхода архитектуры в кремнии на рынок.
вот вот am5 такой, судя по всему. есть единичные отзывы о успешном запуске 4 модулей в 5000-6000, но именно единичные.
что я пробовал: несколько материнских плат (asus 6- и 8-слойные, asrock 8-слойный; зависимости от числа слоёв не заметил, с asus'ом результаты получше пока), разные процессоры (7700 и два экземпляра 9950x; надежды на то, что в ryzen 9000 контроллер памяти будет менее капризный, не оправдались), два комплекта памяти — 4x 32 ecc, и 4x 48 non-ecc.
пока результаты «не особо», даже с 4800 проблемы.
P.S. а вот с 2 модулями никаких проблем не наблюдаю.
я и не пытаюсь на высоких, штатные для памяти 4800 или 5600 меня бы вполне устроили
"Штатные" -- это тайминги как в стандарте у JEDEC. Последняя ревизия: "JESD79-5C". А потому заказываю посмотреть на профили памяти (CPU-Z/HWiNFO в режиме summary), какое оно там на самом деле нестандартное :) Но вообще проблема с DDR5 в целом есть и широкая. Именно с сигналом.
У Hardware Unboxed можно посмотреть материнки, взявшие 8000 MT/s на AM5 с его любимой парой плашек. Правда, без таймингов.
есть единичные отзывы о успешном запуске 4 модулей в 5000-6000, но именно единичные
Вот вам еще отзыв. Я сам запускал с 4 планками на 6000. Пришлось повозиться, в конечном счете снизить напряжение памяти VDD, чтобы оно было не выше чем на 1 вольт VDDQ, но все заработало.
вот вот am5 такой, судя по всему. есть единичные отзывы о успешном запуске 4 модулей в 5000-6000, но именно единичные.
Точно не единичные. У меня 4x32 отлично работают на 5600 MT/s (двойной прогон mdsched.exe + memtest64 ошибок не выдают). Возможно вам стоит обратится к материнкам от MSI и гигабайт))
Тайминги

пока результаты «не особо», даже с 4800 проблемы.
А вы разве не знаете, что на AM5 в процессорах AMD чиплетная архитектура и КП там вынесен в отдельный кристалл? Если вам нужен объём и частота памяти, то вам к синим у них как раз монолит. По сути 9950x и 7700 это один и тот же процессор т.е. в 9950x 2 "процессора" 7700.
У чиплетов есть суперсила - они позволяют экономить при производстве, но у них есть недостатки и одним из таких недостатков является более низкая частота памяти (в исполнении АМД). Чтобы это компенсировать они выпустили x3d процессоры с увеличенным кэшем, но если вы будете генерировать токены, то это вам не поможет т.к. там последовательный доступ к памяти и пропускная способность памяти сильнее влияет на производительность. :)
У чиплетов есть суперсила - они позволяют экономить при производстве, но у них есть недостатки и одним из таких недостатков является более низкая частота памяти (в исполнении АМД)
а есть ли какие-то подтверждения этому утверждению? («частота, на которой контроллер памяти взаимодействует с памятью, снижается при вынесении контроллера памяти в отдельный чиплет»)
а есть ли какие-то подтверждения этому утверждению?
Это самоочевидно: чем дальше у вас друг от друга 2 чипа, тем меньше будет скорость передачи данных между ними хотя бы потому, что электрический сигнал не распространяется в среде мгновенно и количество линий нельзя наращивать бесконечно т.к. размеры чипа конечны. В данном случае не смотря на то, что оно физ. находиться на специальной кремниевой подложке всё равно расстояние между ними кратно больше, чем в монолитном чипе. Если помните была у Интела встройка Iris Pro 6200 с дорогущей памятью в процессоре eDRAM . И это было основной причиной очень высокого быстродействия этой встроенной графики на фоне остальных встроек. Тут ещё нюанс в чём: все процессоры АМ5 двух ранговые, это значит, что у КП всего 2 физических канала для обмена данными с модулями памяти (помните там есть рекомендация ставить модули во 2-ю пару слотов материнской платы), когда вы втыкаете 2 физ. планки памяти, то всё работает "штатно", а когда вы втыкаете 4 физ. планки памяти, то канал "делиться" (правда, там сложная и умная система) ещё на 2, чтобы имитировать 4-х канальную работу (на самом деле для него это не 4 физ. модуля, а 2 "виртуальных"). Например, если бы АМД поставила 2 КП и организовала бы полноценный 4x4R т.к. у 9950x часть CPU состоит из 2х чиплетов, то это бы потребовало добавление в архитектуру доп. общего буфера для обмена данными между 2мя чиплетами (сейчас, просто используется специальная шина Infinity Fabric), что увеличило бы дополнительно задержки при обращении к памяти (для каждого конкретного чиплета проблема решаема, но перенос контекста задачи с ядра в одном чиплете на ядро в другом будет стоить ещё дороже чем сейчас, а сейчас это основанная проблема их архитектуры т.к. ОС до сих пор не умеют управлять потоками "правильно" с т.з. АМД - ну, вы знаете вся эта тракторо-строительная тема). При этом процессоры потеря ли бы унификацию т.е. им бы нужна была своя кремниевая подложка и свой IOD, что увеличило бы конечную себестоимость изделия (а экономика должна быть экономной). :)
Это самоочевидно: чем дальше у вас друг от друга 2 чипа, тем меньше будет скорость передачи данных
Только какое это имеет отношение к частоте, на которой контроллер памяти, который в io die, общается с памятью?
Тут ещё нюанс в чём: все процессоры АМ5 двух ранговые
Так и аналогичные процессоры от Intel тоже с двумя каналами памяти.
Но вот частоты они повыше берут, особенно с 4 планками, и тренировки по 15-30 минут там если и есть, то крайне редки.
а есть ли какие-то подтверждения этому утверждению?
Конечно. Любой бенчмарк памяти.
Это еще память медленная, я видел около 120-130 на Core Ultra.
Как же вы надоели плодить эти сказки про потерю производительности на 4 плашках. У меня 4 х 24 работают даже быстрее чем 2 х 24.
Проблема с 48gb и новыми 64gb модулями, а не с 24, чем ниже объем, тем проще их разгонять. В целом завести 4 модулями 48gb не проблема, проблема сохранить скорость чтения памяти, которая важна для llm генерации.
У меня 2x48gb заводятся на XMP-6400 на i7-14700 + чипсете z790, это топовый чипсет предыдущего поколения, практика запуска 4x48gb показывает, что важен не только проц, но и чипсет.

На 4x48gb тоже железо тянет только 5200 с плохими таймингами.

Из-за неудобного расположения pcie слотов на MSI, что 2 видеокарты не влезают, пришлось перейти на Gigabyte, тоже на чипсете z790, и тут уже еле еле завелось на 4800 с плохими таймингами, по умолчанию сбрасывалось на 4000. Да, Gigabyte славится плохим разгоном памяти, и всё это уже скатывается в не просто "пошел и купил", а кучу нюансов, которые на сайте производителя не увидеть.

Для генерации токенов важна линейная скорость чтения памяти, поэтому скорость генерации CPU-only просела на 31% на 4 модулях, по сравнению с 2 модулями.
практика запуска 4x48gb показывает, что важен не только проц, но и чипсет.
а чипсет-то каким боком? на него же память вообще не заходит

Мммм... У меня 4 плашки. DDR5, 4x32 - 128ГБ.
На рекомендованных 6000 не поехала память без ошибок, как бы я ее не крутил - только 5800. Об XMP\EXPO 6400 обещанных даже речи не идет, но это AMD, им противопоказано больше 6000 из-за соотношений FCLK, MCLK и UCLK. Но не поехали даже 6000.
Перестаньте уже нести херню, возьмите таблицу совместимости оперативной памяти на любой современной материнке и посмотрите на каких частотах спокойно работают х4 комплекты.
Взял свою. Я не знаю, достаточно ли она современная по вашим меркам, но 9800X3D в нее ставится.

Если взять любимчиков маркетинга, та что из новостей: https://www.msi.com/Motherboard/MEG-X870E-GODLIKE/support#mem
G.SKILL F5-6000J3644D64GX4-TR5NS ("Samsung M") - заявляется 1-2-4 модуля по 2R 64GB на 5600 (или 6000? Не уверен, что у них по столбцам профиль памяти, а что именно они получили в итоге).
Полистайте эту табличку вниз. Нужно долистать до места, где в столбце "DIMM Socket Support" есть четверка (т.е. 4 модуля). Иногда там бывает "2, 4", иногда "1, 2, 4" - вот эти вот строки и нужны.
Пролистал. Похоже, конфигурации из 4 модулей они тестировали максимум на 24 x 4 = 96 ГБ.

А вот для Z790 они тестировали и 192 ГБ-комплекты (но только 2 штуки от одного производителя).

Ну вот, и те едут на весьма унылых 5200. На 5000 я безо всякого QVL заведу почти любой набор, это не большого ума дело, просто долгий и упорный перебор сопротивлений. На таких обьемах в десктопах вы будете крутить рулетку на качество не только платы, но еще и силикона в IMC. А это потенциально перебор не столько наборов плашек памяти, сколько процессоров.
просто долгий и упорный перебор сопротивлений
а где почитать?
Ммм... Прям вот гайдом не видел, но почти в любом обсуждении китов на >64ГБ есть что-то эдакое.
Например:
https://www.overclock.net/threads/am5-zen5-9950x-192gb-ram-testing-help.1812101/
https://linustechtips.com/topic/1521887-stable-128gb4x32gb-ddr5-6000-cl30-on-am5-agesa-1007b/
https://forum.level1techs.com/t/ddr5-4-dimms-on-am5-whats-working-whats-not/197153/251
Искать по названиям этих самых сопротивлений: procodt, rttnormwr и прочие. Это очень скучно и долго, потому что ошибка может вывалиться и на десятом часу тестирования памяти...
обычный десктоп оптимизирован под 2 плашки.
под этим обычно скрывается то что установленные пара плашек без труда разгоняется.
но если смотреть характеристики самих плашек, то там видно что базовая обычно относительно низкая по сравнению с разгонной.
а в маркетинге на витринах демонстрируют обычно ту скорость которую производитель гарантирует для данного набора.
а наборы почти всегда из пары.
при установке большего числа планок все эти оптимальные разгоны не работают толком.
CPU Ryzen 9900X, мамка asus prime x670p-csm, RAM Kingston KSM56E46BD8KM-48HM (4x48GB@5600 ECC unbuffered). Быстрее, чем на 4600 4 плашки разом завести не удалось (тайминги/вольтаж по умолчанию).
Но на 4600 всё стабильно, ошибок по ECC не валится.
сказки про потерю производительности на 4 плашках
Расскрою высказывание: есть каналы памяти. Есть плашки в них. Есть по несколько плашек на одном канале (interleaving). Есть "скорость" в удвоенных MHz (MegaTransfers/s), есть тайминги. Есть одноранговые (все чипы расположены с одной стороны печатной платы вместе), есть двухранговые плашки памяти. И interleave вкупе с рангами очень неоднозначно сказывается на параллелизации доступа и результирующей производительности. Еще DDR5 добавили режимы, когда банки памяти обновляются не все разом, а выборочно (плюс для быстродействия). -- мои пять копеек с дивана
Прошу прощения за эмоциональный коммент. Дабы не быть голословным, прикладываю пруф работы 4 плашек памяти по 24 гигабайта буквально граничащей с максимальной пропускной способностью контроллера памяти для данной архитектуры (это значит никаких ограничений на производительность нет):
AIDA64 9950X3D 96GB Memory Test

От процессора не особо сильная зависимость, вот на предыдущем камне:
AIDA64 R7 7700 96GB Memory Test

Тайминги оперативной памяти. Кстати, довольно универсальные для DDR5, можете использовать их как отправную точку в подгонке параметров:
Advanced DRAM Configuration

Причём питание никакое не трогаю, всё на заводских значениях:
ZenTimings Info

Так вот почему я собственно так раскричался. Из-за вот таких голословных вбросов типа: "4 планки не заведутся на am5" или "будет серьёзная просадка по частоте" - я потратил уйму времени на изучение предмета прибывая в сомнениях. Взял сначала на маркетплейсе один комплект - всё заработало идеально. Потом комплект исчез из продажи в РФ на 4 месяца и как только появился в оранжевом магазине, я уже без колебаний помчался брать идентичный - всё заработало ещё лучше! Но без этих сомнительных лозунгов конечно сразу бы взял 2 комплекта по более низкой цене. А ведь многие до сих пор думают, что всё это работает как вещает камрад. У меня довольно посредственная доска, а 4 плашки работают идеально. Все, любые тесты проходит на ура. Выводы делайте сами.
У меня довольно посредственная доска, а 4 плашки работают идеально
а толку? эти 96 можно набрать и двумя планками.
4 планки ставят когда нужно добиться максимального объёма, и это будут dr планки. а у вас sr.
я не уверен на 100%, что ваш успех объясняется именно этим, но считаю это наиболее вероятным объяснением.
4 планки ставят когда нужно добиться максимального объёма
Нет, конечно же не по этому. )
эти 96 можно набрать и двумя планками.
Можно, но не нужно. 4 плашки работают быстрее и стабильнее чем 2 - вроде об этом был мой спич, не читали?
я не уверен на 100%, что ваш успех объясняется именно этим, но считаю это наиболее вероятным объяснением
Такие понятия как: успех, вероятность, не уверенность - не применимы там, где оперируют фактами.
А вообще порекомендую вам освежить знания по железу и слезть уже с этой порочной мантры про 2 плашки. )
4 плашки работают быстрее и стабильнее чем 2
пруфы будут?
вы первый, кто утверждает, что количество планок памяти большее, чем число каналов, увеличивает производительность
А вообще порекомендую вам освежить знания по железу и слезть уже с этой порочной мантры про 2 плашки
вот прямо сейчас освежаю. две планки на ddr5-4800 стартуют на 4800 стабильно, ошибок ecc нет. 4 планки на одной материнской плате стартуют на 4800, но ошибки раз в несколько минут, на другой — на 4800 совсем не стартует, на 4400 ошибки раз в несколько суток.
Для сравнения: https://comkex.com/tech/teamgroup-unveils-jedec-spec-ddr5-6400-memory-kits-faster-1-1v-ddr5-on-the-way-for-future-cpus/
TeamGroup’s Elite and ElitePlus DDR5-6400 memory modules come in 16 GB and 32 GB capacities (32 GB and 64 GB dual-channel kits) and feature JEDEC-standard CL52 52-52-103 timings as well as 1.1V voltage, as specified by the organization overseeing DRAM specs. For the moment, at least, TeamGroup’s DDR5-6400 modules are the industry’s fastest UDIMMs that are fully compliant with the JEDEC specifications.
Это еще почему приводит к потере производительности? Зачем тогда нужны 4 слота?
Контроллеру памяти проца тяжелее работать на 4 плашки, поэтому масимальная частота обычно ниже, чем на двух плашках.
Это еще почему приводит к потере производительности?
Если брать Ryzen 9 9xxx, там, например, если две плашки, то контроллер штатно работает на 5600МТ/с, а если четыре, то всего лишь 3600МТ/с. Разница в полтора раза.
Не всем нужна скорость памяти, некоторым нужен объем
Intel® Core™ Ultra 9 Processor 285K Max Memory Size 256 GB
Ryzen 9950x поддерживает 256 unbuffered ecc/nonecc.
192ГБ DDR5 памяти четырьмя плашками стоят ~60к рублей и работают на обычной десктопной материнке, так что тут все верно.
очень медленно будет работать на cpu в оперативке. Вам нужно 170 гб видеопамяти. На нескольких профессиональных картах. Я прикидывал- даже если брать б.у. теслы, выходит никак не меньше млн. взять б у сервер тысяч за 200-300 и на нем гонять модели, увы не выйдет. Будет производительность ниже плинтуса. В облаке выходит дешевле. Частному лицу, увы недоступно. а так и телефоны с 24 gb памяти найти можно. но это не значит, что на них средние модели будут быстро работать локально
Можно собрать на бу 8*3090, выйдет в районе 600-700к
а куда вы установите "8*3090"?
что бы на каждый 3090 приходилось минимум 8 pci gen3/gen4 линий.
иначе там начинаются большие потери в пропускной способности.
Можно попробовать что-то на тредриперах. У них 128 PCIe линий. Правда, самый дешёвый threadripper pro 5955wx в местном ларьке 120 килорублей, а сколько к нему стоит мамка - вопрос не менее интересный (мамок под SWRX8 сокет в ларьке в наличии не было).
Либо какая-нибудь б/у мамка с б/у же эпиком серии 7xxx.
P.S. Забугорный народ 8 двухслотовых GPU упихивает в Supermicro 4124GS-TNR. Но этот монстр сам по себе что-то около 800 тысяч стоит (первая загугленная ссылка).
А если попробовать 8*2080Ti22Gb https://2080ti22g.com/blogs/news/putting-together-a-rig-with-8-x-rtx-2080ti22g? Пишут ориентировочный бюджет $6500. Только 170Gb модель наверное не запустится на 176Gb памяти.
Для LLM инференса это не важно, PCIE используется только при первичной загрузке модели в видеопамять. Затем трафик минимальный, карты работают последовательно.
Можно попробовать из телефонов с помощью exa кластер запустить
Как аналог максиудио на м3. Там до 512 гб. Будет дешевле сервака с видеокартами в разы. В размере коробке из-под пончика. Куча ядер CPU и GPU, но производительность, разумеется медленнее, чем на чистой VRam на топ картах.
Вообще однобитные кванты существуют очень давно, но они же тупые как тюменский лодочник. То есть опять, запустить можно, но такая хрень получится. Те же дистилляты и то лучше работать будут, скорее всего.
На месте лодочника я бы обиделся...
Вообще однобитные кванты существуют очень давно, но они же тупые как тюменский лодочник. То есть опять, запустить можно, но такая хрень получится. Те же дистилляты и то лучше работать будут, скорее всего.
DeepSeek-R1-Distill-Llama-70B ещё надо умудриться запустить. 70B это Dense-модель, для запуска приличного кванта нужно ~42gb VRAM, это в отличии от оригинального MoE, где для запуска хватит одной видеокарты для ускорения, остальное можно крутить в RAM. По сути сейчас все эти тяжелые MoE (gpt-oss-120b, GLM-4.5, Qwen3, DeepSeek, Kimi K2, LLama 4) запускать в разы проще, чем крупные монолитные dense варианты.
Но главная проблема дистиллятов deepseek в том, что они не deepseek.
Есть даже более экстремальный квант 1.71-битный v3.1 весом 133 ГиБ, он сильно теряет в качестве, на -58% по PPL, но даже такое качество остается пригодным для использования, и это всё еще тот же deepseek, а не имитация.

Тот же вопрос не квантованному дистилляту 70B на openrouter.

Во время рассуждения и ответа смесь непонятных слов, сам стиль ответа другой, качество ответа ниже. Так что дистиллят не будет лучше даже в сравнении с таким экстремальным квантом.
Если есть 192гб RAM, можно уже запускать DeepSeek-V3.1-IQ2_KS весом 193 ГиБ (новые кванты IQK, тоже динамическое квантование как у unsloth, только используют новые и лучшие алгоритмы квантования доступные только в ik_llama.cpp), это 2.472-битный квант, потеря качества 18% по PPL.

Скорость далека от идеальной, но 5 t/s можно условно считать уровнем комфортного использования. PP в 200 t/s позволяет обрабатывать большие контексты за минуты, а не за часы.

Или это фэйк, или модель обучали на русском с опечатками.

Я вас умоляю, если взять под обучение рандомные материалы из интернета, там хорошо если в половине случаев эти слова будут правильно написаны. Хуже, пожалуй, только -ться/тся)
Думаю, он и "в крации" может выдать при случае)
Или это фэйк, или модель обучали на русском с опечатками.
Это не оригинальное качество, это запуск экстремально малого кванта. Русский язык достаточно сильно страдает от квантования из-за imatrix без примеров на русском языке.
И выше просто был пример, что даже такой 1-битный квант, у которого качество -58%, может быть лучше, чем не квантованный дистиллят.
Квантование это не архивирование, это способ уменьшить вес модели за счет снижения качества. Чем крупнее модель, тем лучше она переносит квантование. В случае DeepSeek её размер 671 млрд параметров (671B), есть запас прочности, а, например, 8B уже будет полностью разрушена при таком экстремально низком квантовании:

Мне кажется это извращением. Конкретно дипсик в мелких размерах всегда работал отвратно. И какая та изначально мелкая Gemma 3 27b размажет и на 70б дистил, и эту ужатую.
Мне кажется это извращением. Конкретно дипсик в мелких размерах всегда работал отвратно. И какая та изначально мелкая Gemma 3 27b размажет и на 70б дистил, и эту ужатую.
Как-то не особо размазал, скорее наоборот.
Современное квантование не просто усечение точности, это длинный путь по поиску алгоритмов квантования, динамическое квантование слабо затрагивает тензоры внимания, используется imatrix для выявления суперблоков которые надо слабее квантовать и т.д.
Экстремально квантованный дипсик, хоть и сильно глупеет, но всё еще остается дипсиком, а 27B никак не превратить в 671B.
Пример 1:

Пример 2:


170 ГБ видеопамяти?
На inference можно обойтись CPU и RAM, плюс тенденции что видео- и общая память обьединяются, как в маках например.
Ну вот для Grok2 требуется 8 GPU *40 гигов на карту, т.е. 320 гигов. А тут ужали до 170.
Но вообще я оптимистично смотрю на всё это: у разработчиков железа появилась новая цель, новый мощный стимул продвигать технологии. Пока такое железо сопоставимо со стоимостью квартиры, но надеюсь что постепенно цена снизится, а возможности наоборот увеличатся. Очень уж хочется иметь на домашнем компьютере такой личный ИИ, без цензуры, с возможностью дообучения на любых данных...
ужали модель весом 715 ГБ до 170 ГБ

Комментаторы вы статью то внимательно прочитали, прежде чем комментировать?
Там же написано
The 1-bit dynamic quant TQ1_0 (1bit for unimportant MoE layers, 2-4bit for important MoE, and 6-8bit for rest) uses 170GB of disk space - this works well in a 1x24GB card and 128GB of RAM with MoE offloading - it also works natively in Ollama!
Написано же что должно хорошо работать с ОДНОЙ видюхой на 24Gb + 128Gb RAM.
Будет использоваться выгрузка на SSD. https://docs.unsloth.ai/basics/deepseek-v3.1
А где можно посмотреть скорость локальных ллм? Мне для rag надо чтото быстрое

Это скорость текущей модели в LM Studio на 256Гб двухсокетном сервере с GPU 4090 - 24Гб
Я ограничен 32гб оперативки, поэтому больше чем 24b модели не использую. На Ryzen 7950x в среднем получается порядка 4х токенов в секунду.
Забавно, что если подключить видюху RX6650xt то получается в разы медленнее.
А ответ начинает генерироваться (в смысле появляться побуквенно) мгновенно? Или же сначала приходится подождать, а потом он выводится со скоростью несколько букв в секунду? Просто странно, что повсюду указываются эти самые токены в секунду, но при этом не говорится, через какое время после отправки запроса эти токены начинают появляться.
Для меня это как "самолет летит со скоростью 800 км/ч, между Москвой и Питером 635 км по прямой, а значит, добраться можно за 48 минут". Но на практике нужно заложить еще +3 часа: в аэропорту вроде бы нужно быть за 2 часа до вылета, 10 минут легкой трусцой от двери самолета до зоны выдачи багажа (помнится, чуть ли не 2 км пришлось идти по коридорам в каком-то зарубежном аэропорту, причем там как-то прям с издевкой было устроено: вместо того, чтоб пройти 20-метровую залу по прямой, пришлось идти метров 120, от одного конца и обратно раз пять, поскольку зачем-то были выставлены ограждения, заставляющие ходить змейкой), 20 минут в зоне выдачи багажа и еще полчаса в очереди через паспортный контроль.
Если модель без режима thinking, то начало ответа зависит от объема текста в исходном вопросе. Чем больше там токенов, тем дольше ждать. На тексте килобайт в 20-30 придётся ждать минут 3-5 прежде чем его прожует + время на загрузку модели а память (желательно грузить с ссд, иначе это займет вечность).
Если в модели режим thinking, то там добавляется время на генерацию раздумий - скорость генерации та же самая, но текста там обычно немало, так что минут 5-10 процесс займет. За ним, в принципе, даже можно наблюдать. Ну а потом оно начнет уже ответ генерировать.
Если надолго софт не оставлять и не менять исходный текст запроса слишком сильно, то повторные генерации ответов или продолжение диалога стартуют почти сразу (опять-таки, если туда портянки текстов не совать).
Я пробую через нейронки тексты на заданный сюжет генерировать. Там самое печальное то, что бОльшая часть моделей умеет только писать продолжение, а не перегенерировать заданный текст. То есть надо еще и правильную модель найти - перебором. Плюс они ещё и с цензурой обычно.
Вторая проблема в том, что качество результата сильно зависит от фазы Луны и погоды на Марсе. То есть, формально, есть температура и другие параметры. Но в реальности наибольший эффект дает параметр seed. Который на каждый ответ по-умолчанию случаен. Его, конечно можно вручную задавать - но тут опять же как лично у вас кубики лягут)
И получается, что при одной генерации у нас фигня какая-то, а при другой - шедевр. Причем сегодня у нас одни шедевры, а завтра кубики всегда исключительно фигню выкидывают.
Бонусом идет то, что стиль и качество текста зависит от исходного текста и уже сгенерированного. И если в текст прокрадется что-то не то, то весь последующий текст будет прям на глазах ухудшаться.
Я генерирую на английском. И вот если в текст попадает amidst, то буквально через десяток абзацев каждое предложение будет содержать это слово.
На сколько я знаю, это связано с системой внимания в архитектуре трансформеров на которой работают все эти ллм щаз. У нее сложность N^2, где N - количество токенов в контексте. И по идее чем больше будет контекстное окно и токенов в нем, те мдольле модель будет думать перед ответом, и зависимость квадратичная
Я как-то столкнулся с пояснением про длину маршрута в аэропорту. Что, мол, многие жаловались, что выходят из самолёта, поднимаются в аэропорт в зал получения багажа — и ждут... ждут... ждут... И дальше ждут, пока чемоданы разгрузят и привезут.
Не вопрос, сказали аэродромные люди — и искусственно увеличили путь до зала с багажом. И люди — о радость! — пройдя километр по аэропорту, и ждут меньше в зале багажа (потому что, должно, шли и там время потратили), и, устав, не ропщут, а рады отдыху.
Как говорится, переделали ux вот так просто — «для людей»!
Грузчики быстрее или нежнее грузить не стали, конечно. Они вообще как существа из другой вселенной
Делите скорость памяти на размер модели, получаете скорость в токенах в секунду.
Запустил deepseek 3.1 по методу из приведенной Вами статьи. На моём железе производительность 6-7 токенов в секунду, чего вполне достаточно. Думает перед ответом в среднем порядка 4-5 секунд. Запускается с контекстным окном в 50000 токенов (максимальный размер не исследовал).
Пришлось правда повозиться с текущей версией ik_llama, не хотела компилироваться. Оказалось что в одном из файлов очепятка в имени вызываемой функции. Исправил, заработало.
Коллеги, добрый. Подскажите, где и как скачать это чудо для локальной работы?
Идея топ, но «1-бит» тут условный. Качество держится на калибровке данных


DeepSeek-V3.1 теперь можно запускать локально