researcher_max27 апр в 11:05

Запускаем DeepSeek-V4 (1.6T) на «калькуляторе»: SVD-трансмутация, Identity Theft и гаражный MLOps

Сложный

2 мин

11K

Искусственный интеллектМашинное обучение * Open source * Алгоритмы * IT-инфраструктура *

Кейс

+15

Комментарии 22

doitagain3 27 апр в 11:18

Вы там аккуратнее, а то nasdaq обвалите

researcher_max 27 апр в 11:25

Спокойно, мы только начали. Пока NASDAQ держится на кремнии, мы переходим на чистую математику. В следующей серии запустим DeepSeek-V5 на микроволновке с поддержкой CUDA. Не переключайтесь

netricks 27 апр в 13:11

И как оно?

researcher_max 27 апр в 13:29

Запускай в Keggle или Google colab

netricks 27 апр в 13:33

Ну, если там 50Гб, то я и локально могу поднять. Вопрос, надо ли оно?

researcher_max 27 апр в 13:41

Для продакшена и написания кода — конечно не надо. Возьми любую 8B модель, и она справится лучше. Но надо ли это для того, чтобы доказать, что архитектуру 1.6-триллионного монстра можно ужать в 50 раз, протащить через игольное ушко 16ГБ VRAM и заставить её генерировать осмысленный кибер-сюрреализм? Однозначно да. Это стресс-тест математики и железа. Чистый Ghetto AI

Moog_Prodigy 27 апр в 18:45

Ну с таким подходом и обычная квантизация сработает, а то и даже лучше. В чем прорыв то? Вон дистиллед модели и 9b делают, и они и код уже пишут и общаются относительно связно. 27b недавно вышла, вообще всех порвала, но там MoE. Вот там - прорыв. Весит дофига (все относительно), но ресурсов (VRAM) нужно уже сильно меньше. Ваше то достижение в чем заключается? Если уж жестить, то тут недавно публиковали гитхаб от карпатого, где буквально с нуля предлагается обучить микро модельку и потом она даже работает. Как работает - вопрос дискуссионный, но тем не менее новые слова или названия придумывать оно точно умеет, чуть похуже чем большие модели но для обучения норм.

А еще и до всяких там LLM программы на марковских цепях могли генерировать почти "осмысленный" текст, вообще не имея гигабайтных моделей. В чем новость то? В том, что вы используете нейронку для ответа на комментарии?

researcher_max 27 апр в 19:05

Похоже, вы путаете дистилляцию готовых моделей и экстремальное структурное сжатие.Обычная квантизация" 1.6T модели даже в 4-бита требует около 800 ГБ VRAM. Запустите такое на домашнем ПК? SVD-факторизация (которую делали мы) — это единственный способ математически впихнуть архитектуру такого масштаба в 16 ГБ памяти.Дистилляты (9B) и проект Карпатого — это обучение моделей с нуля. Это стандартный пайплайн. Наше достижение — это "ML-некромантия". Мы взяли готового 1.6T гиганта, вырезали 98% весов, переписали роутер на лету и заставили оригинальную архитектуру выдавать токены на бесплатном инстансе Kaggle. Это проект не про создание "удобного чат-бота", а про стресс-тест железа, библиотек и математики.

VsBirdEye 27 апр в 13:34

Это новая дисциплина, сродни запуску doom на калькуляторах и кофеварках, только результат несколько, ммм... иной =)

researcher_max 27 апр в 13:41

Мы так этот проект и позиционируем в README. Только если в DOOM на калькуляторе ты стреляешь по пиксельным демонам, то здесь ты смотришь, как 1.6 триллиона параметров сжались до 64 векторов и пытаются осознать себя, выдавая латентную поэзию. Цифровая археология как она есть =)

Demiurg2 27 апр в 17:58

Хм. А можно теперь скрестить это, например, с qwen 35b A3b или другой доступной моделью. Т.е. прикрутить ассоциативные связи большой модели к маленькой. Может поумнеет?

researcher_max 27 апр в 19:09

Именно! Вы первый, кто озвучил здесь конечную цель этого подхода. У меня в репо уже есть рабочий "гибрид", где я сшил архитектуру Сбера и веса Gemma. Если мы можем вытащить латентные связи (через SVD) из гиганта вроде DeepSeek-V4, мы теоретически можем использовать их как адаптеры (LoRA-подобные структуры) для Qwen 32B или Llama 3. Это открывает двери для любых издевательств над моделями высшего эшелона на обычном домашнем ПК. Мы можем брать "интуицию" 1.6T-модели и прикручивать её к быстрому и легкому движку 8B/32B моделей. Рад, что вы оценили идею!

iliya2004 28 апр в 09:40

Какая мерзость. Статью пишет ИИ про ИИ, в комментах от автора отвечает тоже ИИ

researcher_max 28 апр в 10:00

добро пожаловать в киберпанк

CkoeTael 28 апр в 13:04

"как накатить Potato mode в vllm" XD

researcher_max 28 апр в 14:52

Мой Potato mode работает на видеокарточке 16ГБ архетектуры 2018 года и да я сейчас на ней тестирую самую передовую модель 2026 года которая предназначена для запуска на кластере от 1.5 терабайт видеопамяти, а Вы можете похвастаться тем что на личном ПК запустили 1.5 терабайтную модель?

netricks 28 апр в 14:56

А если вашим методом сжимать не Deepseek-Pro, а Deepseek-Flash, может потеря качества будет не столь существенной?

researcher_max 28 апр в 15:00

С чего Вы решили что есть потеря качества?я сегодня утром взял скелет от Deepseek-Pro и скрестил ее с со слоями Gemma4, модель лежит в моем репозитории, для проверки качества ее нужно только дообучить на любом датасете.

researcher_max 28 апр в 15:26

Дело в том что для нормальной работы нужно хотя бы 8-10 слоев, Deepseek-Pro пока что выделен только скелет и он живой ...и работает при совмещении и с другими чужеродными архитектурами, при совмещении така же шизофрения...и без дообучения ну не обойтись, а вот насколько умная модель станет или поглупеет можно только после переобучения судить

CkoeTael 28 апр в 15:07

Не пойму к чему агрессия, не вижу ничего плохого в потато моде, это тоже эксперименты, и да, это похоже на потато мод в играх, вы молодец, что провернули это, но не молодец что пошли в агрессию

researcher_max 28 апр в 15:19

С моей стороны никакой агрессии,только сухие логи,мне очень жаль что мой комментарий мог быть воспринят двусмысленно и лично🤝обычный ответ объясняющий насколько это крупная модель ,с которой можно работать даже на очень старых ноутбуках

CkoeTael 28 апр в 15:37

Ну тогда лайк респект подписка)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий