Обновить

Локальные 200B уже не выглядят фантастикой: что меняют Bonsai и TurboQuant

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели13K
Всего голосов 15: ↑15 и ↓0+21
Комментарии22

Комментарии 22

ЗакрепленныеЗакреплённые комментарии

Наткнулся видео в ютубе на эту же тему, посмотрите, если интересно, автор даже у себя запускает модель Bonsai с некоторыми оптимизациями Turbo Quant. Лично меня поразило то, на что способна модель 1Гб:

https://youtu.be/0fWFetwHkVE?is=ZgAqVdHQLdJRrJqS

а что если по технологии prismlm так же сжимать kv-cache?

Что-то мне подсказывает, что это вряли возможно. Для того, чтобы уложаться в дельта-кодирование, скорее всего пришлось перекладывать веса в нейросети. Для неизвестного в рантайме кеша такого не сделать. Хотя я статью ещё не читал. Может чего умнее придумали.

Upd. Ага, ну судя по всему явных сортировок там нет... но, даже не знаю достаточно гладок ли масштаб kv кеша для используемого подхода

Насколько я понял - для kv кэша это не даст уменьшение размера, но даёт такое же значительное ускорение на порядок.

На LM Studio завёлся Bonsai-8B-requantized и это выглядит неплохо (хотя окно всего 65К).

Да чего уж там. Не просто запустилось, а еще и шустро работает на CPU, 16mb ram. холодный старт 3,5 сек. 7 токенов в секунду, chrome сейчас в памяти занимает больше. Русский работает норм, иногда некоторые слова или буквы в словах не русские. (“Если у вас есть конкретный вопрос, с которым вы хотите me помочь…”)

Надеюсь это нейрослоп а не реальная аналитика.
Тупых моделей с 1bit квантованием можно и так наделать, преимущества турбокэша на длинном контексте тоже не показаны.
А в реальности уже есть гибридная архитектура. да и памяти, несмотря ни на что, раздают по 128gb.

Сомневаюсь, что вы вообще внимательно прочитали статью. Нейрослоп – это бездумный пересказ анонсов, а у меня в тексте как раз есть оговорки, сомнения и отдельное размышление о том, что будет только при успешном развитии этих технологий.

Про «тупых моделей с 1bit-квантованием можно наделать» – в этом и не было открытия. Весь вопрос в качестве, и именно это в статье обсуждается: интересен не сам факт 1-bit, а заявление о сильном сжатии при сохранении конкурентоспособного качества.

Про TurboQuant вы тоже пишете мимо: его смысл как раз в длинном контексте, потому что именно там KV-cache сильнее всего раздувает память.

А фраза про гибридные архитектуры и 128 ГБ памяти вообще не спорит с тезисом статьи. Речь была не о том, что без этого ничего не существует, а о том, что потолок локального инференса может сдвинуться ещё дальше.

PS: откуда столько негатива?


Окей claw, перепиши новость с элементами  оговорок, сомнений и отдельных размышлений.
> Весь вопрос в качестве
Так его там нет. https://www.youtube.com/watch?v=aNg47-U_x6A Вот наглядно.
Спасибо не надо. Были год назад занятные тесты с deepseek c динамичным квантованием до 1.5bit, оно даже писало осмысленный текст.
>его смысл как раз в длинном контексте
Ну давайте проведем мысленную аналитику. Допустим турбоквант такой хороший и реально решает проблемы памяти на длинном контексте. Так это же золото! Сейчас перепишем все gemini pro на турбоквант, сэкономим на памяти (или увеличим пропускную способность активных одновременно пользователей) и задавим всех с рынка! у гугла этот турбоквант целый год был в бумагах. И че? Наверно gemini всех победил с суперконтекстом и все пишут код на нем, а не на опусе с codex. Да? Нет. Т.е. в большие модели оно не пошло. Или пошло, но результат мы видим.
А на отдельно взятой малой модели в отдельно взятых тестах кто угодно может показать что при 4bit квантовании "почти ничего" не теряется. Но в реальности это не так.

>А фраза про гибридные архитектуры и 128 ГБ памяти вообще не спорит
>Локальные 200B уже не выглядят фантастикой
И кто тут невнимательно читал? 200b в q4 с гибридной архитектурой как раз полезут в 128gb, при чем вполне возможно с полным контекстом. Это уже реальность. Никому особо не нужная, потому что бестолковая и много альтернатив дешевле, чем железо за килобаксы.

>откуда столько негатива?
Негатива не было, был комментарий к статье с тэгом "аналитика". А вместо аналитики в статье какой то странный опус что старая моделька qwen235 кушает десятки гигабайт кэша. Ну так да, поэтому квен перешли на новые архитектуры, раза два уже, и продолжают их улучшать. И от размера 235 отказались в текущей итерации, кстати.
А вот от вас негатив есть, при чем сразу с переходом на личности. Не надо так.

 Наверно gemini всех победил с суперконтекстом

Наверно да. Уже больше года (со времен Gemnin 2 Pro) гугловые модели лучше всех держат длинный контекст и действительно им оперируют. Т.е там где клод сыпется на 60к, гемини держится почти до 300к (но тут скорее архитектурные нюансы, к размеру конеткста в памяти отношения не имеющие). Не на коде конечно, на художественных текстах и рабочих докуметах. Ибо коду гемини так и не научили,

Но это никакого отношения к Турбокванту не имеет т.к турбоквант призван УМЕНЬШИТЬ ВЕС конеткста в памяти, а не длину контекста, сделав инференс ДЕШЕВЛЕ а не умнее. И гугл раньше всех выкатил действительно рабочее 2млн окно, и предоставлял долго бесплато свои модели почти безлимитно в AI Studio т.е очевидно, ему это обходилось ГОРАЗДО дешевле чем Anthropic/OpenAI.

А мозги у ЛЛМ плывут потому что на длинном контексте Attention портится, а не потому что контекст много места в VRAM скушал.

У вас, очевидно, полное непонимание вопроса "что есть контектс" и на что влияет.

 и все пишут код на нем, а не на опусе с codex.

Могзи модели к размеру контекста отношения не имеют. Это архитектурные нюнасы и нюансы датасета. У гугла модель силой в кодинге вообще никогда не блистала. Зато лучше всех общалась и писала тексты (особенно рифмованные, особенно на русском. С момента выхода 2.0).

Какие-то городские легенды. Клод сейчас довольно долгие “переговоры” ведёт, не теряя исходной постановки. Другой вопрос, что за 200К и контекст становится дороже, и генерация становится сильно медленней.

Бенчмарки гляньте. У LLM эффективный контекст где-то 30-40% от контекстного окна, а после 60% наблюдается заметная деградация качества ответа. У кого-то чуть раньше, у кого-то чуть позже (зависит и от архитектуры, и от преобладающего размере чанка в обучающем датасете), но в целом вещь стабильно наблюдаемая у всех и легко отслеживаемая.

200к гарантируют вам лишь что раньше этого окна модель не скатится в RTYGUWE%@&#*@A вместо текста, но не более (GLM-5 например как оказалось даже этого не гаратирует и после 90к выплевывает рандомную шизу). Компакт делать лучше уже после 110-130к.

Я доверяю своему интенсивному опыту работы на грани лимитов Маx подписки последние 2 месяца. Окно сейчас 1М. Вот прямо не припомню, что бы клод опус 4.6 скатывался в полный маразм. Порой надо одёргивать, если размышления не туда уходят, но это вполне себе “рабочий” процесс. Но вот скорость работы резко деградирует, когда контекст распухает после интенсивных диалогов. Поэтому флоу через проработку PRD и его исполнение через чистый контекст - более, чем рабочий вариант.

>Ибо коду гемини так и не научили
Наверно просто не захотели. Мелочь то какая.
>УМЕНЬШИТЬ ВЕС ДЕШЕВЛЕ
Т.е. мы просто делаем дешевле а глупее оно не становится? Точно? Точно точно? Или нет?
>выкатил действительно рабочее 2млн окн
А это 2млн окно оно с нами в одной вселенной? Точно рабочее? Или "рабочее". Прикрутили с боку и все забыли?
>модели почти безлимитно в AI Studio т.е очевидно, ему это обходилось ГОРАЗДО дешевле
И все это сделали ради текста. А коду просто не обучили. Или, с кодом все плохо, и этот турбо кэш не помог? Или не при чем? Или что? Помогите мне (и себе) найти логическое противоречие со второго раза. Турбокэш хорош и дает результаты (которыми никто не пользуется, глупые людишки) или турбокэш не при чем и результат не очень? Или что?
> длинном контексте Attention портится, а не потому что контекст много места в VRAM скушал
Т.е. размер контекста и размер контекста вообще никак не зависят? Ок. Я вам верю, был не прав.
>Могзи модели к размеру контекста отношения не имеют
Точно. Надо просто прикрутить контекст и сразу все заработает. Так ведь? Вы то знаете как оно работает.
>У гугла модель силой в кодинге вообще никогда не блистала
Зато контекста прикрутили. Наверно большой рынок отжали, деньги получают, да?
>Зато лучше всех общалась и писала тексты
Это все хорошо, только это оценка субъективная. А там где можно оценивать объективно, но без предготовых бенчмарков, гемини никому не нужен. Но контекст работает (нет). И турбокэш не при чем (или при чем?), мы ведь о нем говорим, а не о том какой гугл хороший.

>>>Наверно gemini всех победил с суперконтекстом
Вы когда апеллируете, предоставьте факты. Пообщаемся, я с радостью.

Я что-то не понял, в каком месте я перешёл на личность?

К сожалению, понять друг друга не удалось. Давайте, пожалуйста, просто без обвинений и оценочных суждений.

Про 1bit модели: в статье я пишу про надежду, что такая технология получит развитие и масштабирование, позволяющее грузить модели по памяти в 15 раз меньше и без потери качества. Тут речь именно про сравнение с полноразмерными моделями, а не с квантованными. Мы же знаем, что квантованные модели теряют в качестве, поэтому это именно надежда, что подобное сжатие будет в будущем работать и масштабироваться на больших моделях без потери качества.

У вас хорошие замечания, но вместе с обвинениями неконструктивно

>Сомневаюсь, что вы вообще внимательно прочитали статью
Если это не обсуждение личности комментатора, то я уж не знаю что тут писать. И зачем. И кому.
И так, с обвинениями и с оценочными суждениями, потому что до этого их не было, были комментарии на статью:
1 bit модели - хайпопомойка которые не решают ни одной поставленной проблемы в ограничении инференса. Развитие этой технологии давно есть, называется динамическое квантование, идите читайте, никому не нужно, но можно поиграться. И речь идет про сравнение любых моделей, которыми могут пользоваться люди.
>Мы же знаем, что квантованные модели теряют в качестве, поэтому это именно надежда, что подобное сжатие будет в будущем работать и масштабироваться на больших моделях без потери качества
Логика вышла из чата? Мы же знаем что квантование ломает качество поэтому помолимся богу-машине чтобы квантование не ломало качество? Это ваша аргументация? Хорошо, принимаю, не спорю.
У вас плохие замечания, так ещё и читаете не внимательно, и на личности переходите в обсуждении технологий (зачем?).

Ну, мы, например, также знаем, что moe модели от квантования страдают меньше. Тоесть, не все одинаковы по этому параметру и, вероятно, найдётся место, куда это можно будет хорошо применить.

Тут же два аспекта соревнуются рост качества от увеличения числа параметров против уменьшения качества от сжатия. Если есть пространство на котором первое сильнее, технология полезна

спасибо за ваш труд, интересная статья. видимо, задачу оптимизации KV кэша можно рассматривать как отдельную задачу ML со своими подходами и методами.

Да, если углубиться, то это вообще целая вселенная, которая, кстати, заодно способна решить проблему RAG-систем(сделать память практически мгновенной)

PS:

Спасибо за обратную связь. Она очень важна. Тяжело воспринимать негатив, когда вкладываешь душу и пишешь статьи с энтузиазмом.

Дельта-сигма кодирование для нейросети. Звучит прикольно.


Я бы перевернул сравнение моделей слегка иначе, применительно к условному конфигу железа.

К чему я? Вот там было сравнение по бенчам Qwen3.5 235B vs. Qwen3.5 235B. от PrismLM. И вроде есть просад по бенчам с 79% до 70%,. Нл если это развернуть так: раньше на моем железе я мог запустить модель 8B с условными 50% бенчей, то сейчас на том же железе смогу 23B с условными 60%. Это уже не снижение, а вполне себе буст. В статье ведь про локальный запуск, а это всегда ограничение по ресурсам..

Цифры я с потолка взял, прошу не цепляться.

О, я как раз вот это и имел в виду

Наткнулся видео в ютубе на эту же тему, посмотрите, если интересно, автор даже у себя запускает модель Bonsai с некоторыми оптимизациями Turbo Quant. Лично меня поразило то, на что способна модель 1Гб:

https://youtu.be/0fWFetwHkVE?is=ZgAqVdHQLdJRrJqS

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации