Тут упоминается sglang. Я постоянно использовал llama.cpp. И столкнулся с низкой скоростью инференса на CPU. Раньше (1-2 года назад) скорость llama.cpp была 2/3 от пропускной способности RAM в пересчете на веса модели. Например скорость 460 ГБ/сек, веса модели 7B, BF16, 14ГБ, dense. Получалась скорость около 20 токенов в секунду. И при квантах скорость росла.
А сейчас, например с qwen 3.5, максимум 1/3. И кванты даже не повышают скорость по сравнению с BF16, а понижают.
Вот если взять модель GigaChat-3.1-Lightning. где её лучше запускать для CPU? Llama.cpp или sglang? 32к контекста более чем устраивает. Главное, чтобы этот диапазон рабочий был. А не как на старых Sonnet, где после 17к - тыква.
Или как скомпилировать софт лучше для 3.1-lightning или преобразовать веса.
Qwen 3.5 хорошо оптимизирован под Aider. Все MoE модели. По качеству 6й квант 35B-A3B примерно соответствует 4му кванту 122B-A10B. По Dense моделям провал.
И указать крупный presence_penalty=1.5 при запуске модели. У Qwen 3.5 требуется.
Сам себя поймал на мысли, что классовая борьба чешется.
Но потом появилась мысль, что не знаю никаких новых ценных продуктов, появившихся за последние пару лет. Даже в области ИИ. Что я в начале 2024 использовал - тем и сейчас пользуюсь. Только модели поменялись. А нет развития - так за что платить?
Вот если бы они сделали аналог Nvidia H100 на каком-то модном Chisel Scala - вот это был бы поворот. Со всеми моделированием, верификацией. Или как там называются аналоги unit тестов у разработчиков аппаратуры. Надеюсь знатоки verilog подскажут. Вот это была-бы новость!
Сам у GLM 5 поспрашивал про SAP. Помню за него много денег платили. Но тема мимо меня прошла. А тут решил узнать. Что за SAP такое. И, в отличии некоторых других ИИ, glm нормально отвечает.
Так что пусть вдохновляются. DeepSeek писал, что Engram экономит, умещая первые 12 слоев в 5 слоях. Заодно в сбере сэкономят на обучении новых моделей.
Для перехвата спутников, из самого низколетящего класса. Выходить в космос не надо. Нужен стратосферный самолет, который после перехвата и уничтожения спутника быстро сваливается обратно в плотные слои атмосферы.
А на сэкономленные $2 млрд можно наделать низкотемпературные натриевые аккумуляторы. Например CATL Naxtra. Которые стоят вроде около 60-80-100 долларов/кВтч. И оснащать много лет все российские автомобили, сделав их гибридами с 12-20 кВтч батареями.
Думаю для русского языка - тоже сойдет. "количество токенов на слово в разных языках" - хорошо гуглится. И для русского языка обычно больше 2 токенов на слово. Хотя модели Вихрь и Т-про хвалятся оптимизацией.
Осталось несколько дней до китайского нового года. Каждая китайская компания сейчас делает срезы.
Дальше будет затишье.
Топикстартеру: еще на днях Longcat flash 2601 вышла. Вполне крупный формат. Вроде не разобрана на хабре. Про сеть ERNIE 5 и тему DeepSeek Engram уже вроде разобрано.
А мне 4.5 ernie нравится. Структура повествования ровная. Без сумбурности. Та что 300B A47.
И то, что долгое время на openrouter была только неквантованная модель. Не нужно было конкретного провайдера указывать, чтобы на квант не попасть. Сейчас правда кванты появились.
А 5.0 можно будет оценить. Даже если будет 8 бит. Вопрос когда на openrouter появится. Или ещё где. Сейчас я её в свободном доступе не вижу.
Иногда появляется мысль, что хорошо перебросить флешку с нейронной и комплектом ПО в прошлое. Сколько бы времени сэкономило. Даже при скорости в пару токенов в секунду.
А текущая нейронка, наверное, ещё для кинематографа хороша. Проверять можно даже ошибки современников. Например идея одного автора, получившая распространение только после его смерти.
С видеокартой не сложилось. Но переход на ik_llama дал преимущество на препроцессинге на cpu. На генерации тоже больше стало.
llama-bench -m sage/GigaChat3.1-10B-A1.8B-bf16.gguf
| pp512 | 493.81 ± 44.65 |
| tg128 | 21.38 ± 0.09 |
ik_llama-bench -m sage/GigaChat3.1-10B-A1.8B-bf16.gguf
| pp512 | 994.44 ± 112.04 |
| tg128 | 27.61 ± 0.29 |
Ещё вариант: Уолл Стрит была не на статью Google
Тут упоминается sglang. Я постоянно использовал llama.cpp. И столкнулся с низкой скоростью инференса на CPU. Раньше (1-2 года назад) скорость llama.cpp была 2/3 от пропускной способности RAM в пересчете на веса модели. Например скорость 460 ГБ/сек, веса модели 7B, BF16, 14ГБ, dense. Получалась скорость около 20 токенов в секунду. И при квантах скорость росла.
А сейчас, например с qwen 3.5, максимум 1/3. И кванты даже не повышают скорость по сравнению с BF16, а понижают.
Вот если взять модель GigaChat-3.1-Lightning. где её лучше запускать для CPU? Llama.cpp или sglang? 32к контекста более чем устраивает. Главное, чтобы этот диапазон рабочий был. А не как на старых Sonnet, где после 17к - тыква.
Или как скомпилировать софт лучше для 3.1-lightning или преобразовать веса.
Qwen 3.5 хорошо оптимизирован под Aider. Все MoE модели. По качеству 6й квант 35B-A3B примерно соответствует 4му кванту 122B-A10B. По Dense моделям провал.
И указать крупный
presence_penalty=1.5при запуске модели. У Qwen 3.5 требуется.Сам себя поймал на мысли, что классовая борьба чешется.
Но потом появилась мысль, что не знаю никаких новых ценных продуктов, появившихся за последние пару лет. Даже в области ИИ. Что я в начале 2024 использовал - тем и сейчас пользуюсь. Только модели поменялись. А нет развития - так за что платить?
Молодцы, что через рынок акций пошли. А не продаться кому-то крупному.
Звучит как очень простая задача. Может веса переквантованные были.
Вот если бы они сделали аналог Nvidia H100 на каком-то модном Chisel Scala - вот это был бы поворот. Со всеми моделированием, верификацией. Или как там называются аналоги unit тестов у разработчиков аппаратуры. Надеюсь знатоки verilog подскажут. Вот это была-бы новость!
Сам у GLM 5 поспрашивал про SAP. Помню за него много денег платили. Но тема мимо меня прошла. А тут решил узнать. Что за SAP такое. И, в отличии некоторых других ИИ, glm нормально отвечает.
В Сбере сами говорили, что взяли инфраструктуру для DeepSeek. Только обучили на своих данных. Про Giga 3 Ultra. Только изначально 16 бит выложили: https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview-bf16 .
Так что пусть вдохновляются. DeepSeek писал, что Engram экономит, умещая первые 12 слоев в 5 слоях. Заодно в сбере сэкономят на обучении новых моделей.
Так что как покурят, пусть за работу принимаются.
Надо пересчитать.
От исходной версии: считать удвоение каждые 2 года. А с момента нового заявления - каждые полтора.
Покритикуйте гипотезу:
Для перехвата спутников, из самого низколетящего класса. Выходить в космос не надо. Нужен стратосферный самолет, который после перехвата и уничтожения спутника быстро сваливается обратно в плотные слои атмосферы.
А на сэкономленные $2 млрд можно наделать низкотемпературные натриевые аккумуляторы. Например CATL Naxtra. Которые стоят вроде около 60-80-100 долларов/кВтч. И оснащать много лет все российские автомобили, сделав их гибридами с 12-20 кВтч батареями.
Интересно, если Baidu выйдет на мировой рынок со своим роботакси Apollo Go
DeepSeek так сладко рассказывала об Engram, что появился LongCat-Flash-Lite
Думаю для русского языка - тоже сойдет. "количество токенов на слово в разных языках" - хорошо гуглится. И для русского языка обычно больше 2 токенов на слово. Хотя модели Вихрь и Т-про хвалятся оптимизацией.
Осталось несколько дней до китайского нового года. Каждая китайская компания сейчас делает срезы.
Дальше будет затишье.
Топикстартеру: еще на днях Longcat flash 2601 вышла. Вполне крупный формат. Вроде не разобрана на хабре. Про сеть ERNIE 5 и тему DeepSeek Engram уже вроде разобрано.
Есть вероятность, что такая среднеразмерная ИИ 27-40B будет даже интереснее крупного формата 700B.
Для программирования рутинных задач. Если средний формат выйдет на плато. Где хорошо описанные, как по техзаданию, запросы выдают рабочий код.
Наконец-то пошли толковые советы.
А то как не откроешь книгу - а там пол релевантного ответа и дальше та же джинса больших американских ии.
А мне 4.5 ernie нравится. Структура повествования ровная. Без сумбурности. Та что 300B A47.
И то, что долгое время на openrouter была только неквантованная модель. Не нужно было конкретного провайдера указывать, чтобы на квант не попасть. Сейчас правда кванты появились.
А 5.0 можно будет оценить. Даже если будет 8 бит. Вопрос когда на openrouter появится. Или ещё где. Сейчас я её в свободном доступе не вижу.
Иногда появляется мысль, что хорошо перебросить флешку с нейронной и комплектом ПО в прошлое. Сколько бы времени сэкономило. Даже при скорости в пару токенов в секунду.
А текущая нейронка, наверное, ещё для кинематографа хороша. Проверять можно даже ошибки современников. Например идея одного автора, получившая распространение только после его смерти.