Другие производители поступают условно плохо, но честно: мы не возим в РФ официально, хотите берите серость, хотите не берите, up to you, как говорится.
Тут другой тезис: ребята, помогите с разработкой, но продать я вам не смогу, потому что у вас "череп другой формации".
Как для проекта из РФ и с CEO кто в РФ вырос - ну просто жесть на самом деле.
Ну а кого не напрягает подобное отношение, вперед и с песней, я либерал, мать его, каждый должен иметь свои границы доступного и приемлемого и только ему решать. У всех есть своя точка зрения и я ее уважаю.
Но как по мне, а я напомню, либерал, это "зашквар". И это моя позиция по вопросу помощи с разработкой девайса.
Лично от меня? Ну например я отлично шарю в C++, разбираюсь в SIMD инструкциях неплохо, умею писать быстрый код с весьма ограниченными ресурсами (считать биты, а не гигабайты, измерять время исполнение инструкций в наносекундах, грузить все регистры AVX/SSE четко порезанными по блокам данными и лично встречал AVX-lag), знаю что такое binning кристаллов процессоров и что длинна разводок дорожек на плате влияет на производительность. Так что думаю в чем-то да мог бы, но не буду.
Я не строю баррикады, лично я за открытый мир. Баррикады строит компания производитель оборудования. Под политическим давлением или по доброй воле - не важно, баррикада присутствует.
Просить помощи у "людей второго сорта" (и снова не важно политика это или нет), как для CEO отличная идея, как для тех кто примет участие в доработке - неуважение самого себя.
Ну и про мировое сообщество ты классно сказал, лично ты (именно ты, да и я тоже) к мировому сообществу по мнению производителя, увы, не относишься - потому что не имеешь права получить этот продукт, над которым сам же можешь и работать, о чем говорит сам сайт производителя.
Это у вас проблемы с причинно-следственными связями. Другие 99% вендоров изначально не РФ и не просят у РФ технарей помощи с разработкой.
А тут проект из РФ с CEO из РФ просит помощи у технарей из РФ помощи, но при этом продать свой продукт этим же парням и девушкам - идите далеко и надолго.
Я сам изначально против нести задолбавшую всех политоту на технический ресурс, но конкретно сейчас триггернуло сильно.
Ну а чего нет? Бабло не пахнет, а "гномики мне сейчас накопают" что-то хорошее, чтобы мы потом в святых EU и US все продали, а нам "большое человеческое спасибо".
Правильно я понимаю, что ты хочешь, чтобы РФ разработчики на "opensource" началах тебе запилили нужные фичи? Ок, не вопрос, у нас очень много талантливых и заряженных парней и девушек.
НО! В тоже время, "Oops! We’re not yet selling in Russia"???
Скажи честно, zhovner, тебе самому не стыдно? Чисто по человечески.
Я брал RTX PRO 4000 Blackwell на 24Gb - уложился в 170.000, Qwen3.6-27B влетает с запасом в Q4_K_M, Qwen3.6-35B-A3B влетает впритык но на контекст в 128k хватает в q8 (без турбокванта, но с матрицами Адамара для KV - нативная фича llama.cpp).
Скорость на последних сборках llama.cpp подросла для MoE Qwen3.6-35B-A3B до 135 tps decode и prefill до 4500 tps. Хватает и доволен, работаю через свой тюненный qwen-code.
Статью прочитал, ничего не понял, но кое что зацепил.
Цитата: когда "от Москвы до самых до окраин" стагнация экономики и деградация российской науки - ни производственно-технической базы, ни новейших технологий и материалов, нехватка квалифицированных кадров. На одной "движухе" с её бурлящими "мега-проектами" и "мега-вызовами" далеко не уедешь.
И далее ноунейм из интернета расписывает мат. выкладки про зависимость скорости полета от плотности воздуха, формы летательного аппарата от скорости, профилей законцовок крыла для поддержания "подушки" и сохранения устойчивости аппарата.
Дружище, так базис ты сам уже выдал, сам же писал, что глайдер - особой формы болванка без движков, сугубо одноразовая, фокус в материалах и внутреннем объеме для размещения там головной части с ЯО, да или даже без нее - если удар чисто кинетический.
Я реально уверен в том, что запросто в РУ сегменте может прийдти другой ноунейм и написать "херня вопрос, чтобы пережить нагрев поверхности от трения атмосферы нужно" и еще 3-4 страницы, но уже с химическими формулами, рассчетами сопромата и прочему и в конце выдаст что-то типа "вот дядя Вася в гараже накрутил карбон-кевлара с покрытием из редкого сибирского лишаника, который выдержит до пары тысяч цельсия нагрева на протяжении 120 минут".
И отсюда вопрос, уверен, что заряженный коллектив не сможет спроектировать такую болванку и подобрать материал?
В общем сложилось впечатление, что исходный нарратив статьи вот вообще никак не коррелирует с реальностью:) Сам же на своем примере ты его опроверг.
P.S И дополню, радиосигнал в облаке плазмы от такого глайдера не пробьется, связи не будет, надо как-то его позиционировать. Хотя для заряда в пару мегатонн КВО в пару-тройку километров роли не играет. Да и кинетическая болвканка от МБР как-то в стальной блин на Куру за пару тысяч келометров прилетают.
Не, просто веса не вся модель, еще эмбеддинги есть, например:) А их не квантуют, активации есть, тоже не квантуют, а все это имеет вес, потому и не все ровно под 4 бит получается. Еще outliers есть, которые квантовать бездумно не стоит
Кодить на Q4 квантах можно и нужно, разницы в качестве ответов никакой не будет 100%. Потери на Q4 квантах настолько мизерны, что никак не аффектят на workflow. Ну или на крайняк агент сделает на 1 итерацию больше, если вдруг скобку где забудет:)
Ну например Qwen3.5-9B, тотже показатель PPL лично намеряный мной на корпусе wikitext2 (всего 128 чанков по 512 токенов каждый).
PPL FP16: 8.0276
PPL Q4_K_M: 8.0346
PPL delta: 0,007
О чем это говорит? Да ни о чем! Полное отсутствие деградации между FP16 и квантовании до 4 бит. НО! Это для корпуса из wikitext2, и вообще ни о чем не говорит для кода, картинок, сложных научных текстов. Но понимание дает.
Ну и к слову сказать Q3 кванты да, дают деградацию до единицы PPL, что уже заметно скажется на качестве ответа.
Да потому что O(n^2) и это даже не сам вес, а также пропускная способность памяти. Меньше вес на бит -> меньше трафика из VRAM до tensor, лучше утилизация самой GPU (любая llm для одного пользователя это memory bound, не compute), больше prefill и decode, счастливее пользователь.
Да и сейчас никто не квантует в лоб до наилучшего ближайшего значения для группы весов, GPTQ/AWQ, SPINquant, тотже GGUF всем известный - вариантов беречь "интеллект" модели масса, везде свои плюсы и минусы, влоть до банального "огораживания" outliers и наиболее значимых токенов при условно стандартном calibration corpus (типа wikitext2) и проверке на evaluation corpus.
Показатель PPL не самый лучший, как ты правильно написал, есть ведь еще NLL, KL-divergence.
Короче квантование тоже отрасль и там есть свои интересные вещи. Конкретно мне понравилось пытаться перенести tradeoff из memory в лишний compute для своего проекта SVSK (уже кидал ссылку, но не сочтите за рекламу https://github.com/Dookoo2/SVSK).
И дополню еще - рассказы про Q4 квантование - ложь! Нормальный Q4_K_M это чуть ли не 4.5-4.7 бита на вес (можно посмотреть в llama.cpp при загрузке модели - там показывается BPW параметр (bits per weight).
Другие производители поступают условно плохо, но честно: мы не возим в РФ официально, хотите берите серость, хотите не берите, up to you, как говорится.
Тут другой тезис: ребята, помогите с разработкой, но продать я вам не смогу, потому что у вас "череп другой формации".
Как для проекта из РФ и с CEO кто в РФ вырос - ну просто жесть на самом деле.
Ну а кого не напрягает подобное отношение, вперед и с песней, я либерал, мать его, каждый должен иметь свои границы доступного и приемлемого и только ему решать. У всех есть своя точка зрения и я ее уважаю.
Но как по мне, а я напомню, либерал, это "зашквар". И это моя позиция по вопросу помощи с разработкой девайса.
Лично от меня? Ну например я отлично шарю в C++, разбираюсь в SIMD инструкциях неплохо, умею писать быстрый код с весьма ограниченными ресурсами (считать биты, а не гигабайты, измерять время исполнение инструкций в наносекундах, грузить все регистры AVX/SSE четко порезанными по блокам данными и лично встречал AVX-lag), знаю что такое binning кристаллов процессоров и что длинна разводок дорожек на плате влияет на производительность. Так что думаю в чем-то да мог бы, но не буду.
И снова твой посыл не верен вообще никак.
Я не строю баррикады, лично я за открытый мир. Баррикады строит компания производитель оборудования. Под политическим давлением или по доброй воле - не важно, баррикада присутствует.
Просить помощи у "людей второго сорта" (и снова не важно политика это или нет), как для CEO отличная идея, как для тех кто примет участие в доработке - неуважение самого себя.
Ну и про мировое сообщество ты классно сказал, лично ты (именно ты, да и я тоже) к мировому сообществу по мнению производителя, увы, не относишься - потому что не имеешь права получить этот продукт, над которым сам же можешь и работать, о чем говорит сам сайт производителя.
Это у вас проблемы с причинно-следственными связями. Другие 99% вендоров изначально не РФ и не просят у РФ технарей помощи с разработкой.
А тут проект из РФ с CEO из РФ просит помощи у технарей из РФ помощи, но при этом продать свой продукт этим же парням и девушкам - идите далеко и надолго.
Я сам изначально против нести задолбавшую всех политоту на технический ресурс, но конкретно сейчас триггернуло сильно.
Но стыдливо так, из под полы и без гарантии, серым импортом.
Это показывает отношение компании к тем людям у кого он просит помощи и показывает прекрасно.
Ну а чего нет? Бабло не пахнет, а "гномики мне сейчас накопают" что-то хорошее, чтобы мы потом в святых EU и US все продали, а нам "большое человеческое спасибо".
Правильно я понимаю, что ты хочешь, чтобы РФ разработчики на "opensource" началах тебе запилили нужные фичи? Ок, не вопрос, у нас очень много талантливых и заряженных парней и девушек.
НО! В тоже время, "Oops! We’re not yet selling in Russia"???
Скажи честно, zhovner, тебе самому не стыдно? Чисто по человечески.
Нет, не точно, "переписать можно, а зачем?"
Я брал RTX PRO 4000 Blackwell на 24Gb - уложился в 170.000, Qwen3.6-27B влетает с запасом в Q4_K_M, Qwen3.6-35B-A3B влетает впритык но на контекст в 128k хватает в q8 (без турбокванта, но с матрицами Адамара для KV - нативная фича llama.cpp).
Скорость на последних сборках llama.cpp подросла для MoE Qwen3.6-35B-A3B до 135 tps decode и prefill до 4500 tps. Хватает и доволен, работаю через свой тюненный qwen-code.
Покажи мне ошибки в формулах из моего комментария, агрессивный ноунейм
Ветрено очень... сдует:)
Статью прочитал, ничего не понял, но кое что зацепил.
Цитата: когда "от Москвы до самых до окраин" стагнация экономики и деградация российской науки - ни производственно-технической базы, ни новейших технологий и материалов, нехватка квалифицированных кадров. На одной "движухе" с её бурлящими "мега-проектами" и "мега-вызовами" далеко не уедешь.
И далее ноунейм из интернета расписывает мат. выкладки про зависимость скорости полета от плотности воздуха, формы летательного аппарата от скорости, профилей законцовок крыла для поддержания "подушки" и сохранения устойчивости аппарата.
Дружище, так базис ты сам уже выдал, сам же писал, что глайдер - особой формы болванка без движков, сугубо одноразовая, фокус в материалах и внутреннем объеме для размещения там головной части с ЯО, да или даже без нее - если удар чисто кинетический.
Я реально уверен в том, что запросто в РУ сегменте может прийдти другой ноунейм и написать "херня вопрос, чтобы пережить нагрев поверхности от трения атмосферы нужно" и еще 3-4 страницы, но уже с химическими формулами, рассчетами сопромата и прочему и в конце выдаст что-то типа "вот дядя Вася в гараже накрутил карбон-кевлара с покрытием из редкого сибирского лишаника, который выдержит до пары тысяч цельсия нагрева на протяжении 120 минут".
И отсюда вопрос, уверен, что заряженный коллектив не сможет спроектировать такую болванку и подобрать материал?
В общем сложилось впечатление, что исходный нарратив статьи вот вообще никак не коррелирует с реальностью:) Сам же на своем примере ты его опроверг.
P.S И дополню, радиосигнал в облаке плазмы от такого глайдера не пробьется, связи не будет, надо как-то его позиционировать. Хотя для заряда в пару мегатонн КВО в пару-тройку километров роли не играет. Да и кинетическая болвканка от МБР как-то в стальной блин на Куру за пару тысяч келометров прилетают.
Слушай, ну реально дело привычки, переходный период может быть сложновато, но потом придет понимание что в своей валюте реально проще жить.
И этот пересчет в валюту, ну как папуасы елки-палки.
А в чем сложность пользования белками? Это реально дело привычки ведь, на месяц полтора не более, примелькаются цены в белках и все будет ок.
Тебя Claude/ChatGPT смог убедить что ты чертов гений?:)
Не, просто веса не вся модель, еще эмбеддинги есть, например:) А их не квантуют, активации есть, тоже не квантуют, а все это имеет вес, потому и не все ровно под 4 бит получается. Еще outliers есть, которые квантовать бездумно не стоит
Кодить на Q4 квантах можно и нужно, разницы в качестве ответов никакой не будет 100%. Потери на Q4 квантах настолько мизерны, что никак не аффектят на workflow. Ну или на крайняк агент сделает на 1 итерацию больше, если вдруг скобку где забудет:)
Ну например Qwen3.5-9B, тотже показатель PPL лично намеряный мной на корпусе wikitext2 (всего 128 чанков по 512 токенов каждый).
PPL FP16: 8.0276
PPL Q4_K_M: 8.0346
PPL delta: 0,007
О чем это говорит? Да ни о чем! Полное отсутствие деградации между FP16 и квантовании до 4 бит. НО! Это для корпуса из wikitext2, и вообще ни о чем не говорит для кода, картинок, сложных научных текстов. Но понимание дает.
Ну и к слову сказать Q3 кванты да, дают деградацию до единицы PPL, что уже заметно скажется на качестве ответа.
Да потому что O(n^2) и это даже не сам вес, а также пропускная способность памяти. Меньше вес на бит -> меньше трафика из VRAM до tensor, лучше утилизация самой GPU (любая llm для одного пользователя это memory bound, не compute), больше prefill и decode, счастливее пользователь.
Да и сейчас никто не квантует в лоб до наилучшего ближайшего значения для группы весов, GPTQ/AWQ, SPINquant, тотже GGUF всем известный - вариантов беречь "интеллект" модели масса, везде свои плюсы и минусы, влоть до банального "огораживания" outliers и наиболее значимых токенов при условно стандартном calibration corpus (типа wikitext2) и проверке на evaluation corpus.
Показатель PPL не самый лучший, как ты правильно написал, есть ведь еще NLL, KL-divergence.
Короче квантование тоже отрасль и там есть свои интересные вещи. Конкретно мне понравилось пытаться перенести tradeoff из memory в лишний compute для своего проекта SVSK (уже кидал ссылку, но не сочтите за рекламу https://github.com/Dookoo2/SVSK).
И дополню еще - рассказы про Q4 квантование - ложь! Нормальный Q4_K_M это чуть ли не 4.5-4.7 бита на вес (можно посмотреть в llama.cpp при загрузке модели - там показывается BPW параметр (bits per weight).