По своему опыту, режим Expert явно не прошлый V4_lite, сильно умнее. Возможно временно вернули старый V3.2, но скорее всего это уже V4preview. По ощущениям очень хорош, ждем релиза.
простите, в упор не вижу размер контекста. От себя только добавлю только что наигрался в циферки на бенчах, с аналогичным конфигом. В какой то момент модели начинают либо жестко тупить либо все равно проседать до привычных значений. Пришел к выводу что не стоит оно того в реальном использовании.
>Сомневаюсь, что вы вообще внимательно прочитали статью Если это не обсуждение личности комментатора, то я уж не знаю что тут писать. И зачем. И кому. И так, с обвинениями и с оценочными суждениями, потому что до этого их не было, были комментарии на статью: 1 bit модели - хайпопомойка которые не решают ни одной поставленной проблемы в ограничении инференса. Развитие этой технологии давно есть, называется динамическое квантование, идите читайте, никому не нужно, но можно поиграться. И речь идет про сравнение любых моделей, которыми могут пользоваться люди. >Мы же знаем, что квантованные модели теряют в качестве, поэтому это именно надежда, что подобное сжатие будет в будущем работать и масштабироваться на больших моделях без потери качества Логика вышла из чата? Мы же знаем что квантование ломает качество поэтому помолимся богу-машине чтобы квантование не ломало качество? Это ваша аргументация? Хорошо, принимаю, не спорю. У вас плохие замечания, так ещё и читаете не внимательно, и на личности переходите в обсуждении технологий (зачем?).
>Ибо коду гемини так и не научили Наверно просто не захотели. Мелочь то какая. >УМЕНЬШИТЬ ВЕС ДЕШЕВЛЕ Т.е. мы просто делаем дешевле а глупее оно не становится? Точно? Точно точно? Или нет? >выкатил действительно рабочее 2млн окн А это 2млн окно оно с нами в одной вселенной? Точно рабочее? Или "рабочее". Прикрутили с боку и все забыли? >модели почти безлимитно в AI Studio т.е очевидно, ему это обходилось ГОРАЗДО дешевле И все это сделали ради текста. А коду просто не обучили. Или, с кодом все плохо, и этот турбо кэш не помог? Или не при чем? Или что? Помогите мне (и себе) найти логическое противоречие со второго раза. Турбокэш хорош и дает результаты (которыми никто не пользуется, глупые людишки) или турбокэш не при чем и результат не очень? Или что? > длинном контексте Attention портится, а не потому что контекст много места в VRAM скушал Т.е. размер контекста и размер контекста вообще никак не зависят? Ок. Я вам верю, был не прав. >Могзи модели к размеру контекста отношения не имеют Точно. Надо просто прикрутить контекст и сразу все заработает. Так ведь? Вы то знаете как оно работает. >У гугла модель силой в кодинге вообще никогда не блистала Зато контекста прикрутили. Наверно большой рынок отжали, деньги получают, да? >Зато лучше всех общалась и писала тексты Это все хорошо, только это оценка субъективная. А там где можно оценивать объективно, но без предготовых бенчмарков, гемини никому не нужен. Но контекст работает (нет). И турбокэш не при чем (или при чем?), мы ведь о нем говорим, а не о том какой гугл хороший.
>>>Наверно gemini всех победил с суперконтекстом Вы когда апеллируете, предоставьте факты. Пообщаемся, я с радостью.
Окей claw, перепиши новость с элементами оговорок, сомнений и отдельных размышлений. > Весь вопрос в качестве Так его там нет. https://www.youtube.com/watch?v=aNg47-U_x6A Вот наглядно. Спасибо не надо. Были год назад занятные тесты с deepseek c динамичным квантованием до 1.5bit, оно даже писало осмысленный текст. >его смысл как раз в длинном контексте Ну давайте проведем мысленную аналитику. Допустим турбоквант такой хороший и реально решает проблемы памяти на длинном контексте. Так это же золото! Сейчас перепишем все gemini pro на турбоквант, сэкономим на памяти (или увеличим пропускную способность активных одновременно пользователей) и задавим всех с рынка! у гугла этот турбоквант целый год был в бумагах. И че? Наверно gemini всех победил с суперконтекстом и все пишут код на нем, а не на опусе с codex. Да? Нет. Т.е. в большие модели оно не пошло. Или пошло, но результат мы видим. А на отдельно взятой малой модели в отдельно взятых тестах кто угодно может показать что при 4bit квантовании "почти ничего" не теряется. Но в реальности это не так.
>А фраза про гибридные архитектуры и 128 ГБ памяти вообще не спорит >Локальные 200B уже не выглядят фантастикой И кто тут невнимательно читал? 200b в q4 с гибридной архитектурой как раз полезут в 128gb, при чем вполне возможно с полным контекстом. Это уже реальность. Никому особо не нужная, потому что бестолковая и много альтернатив дешевле, чем железо за килобаксы.
>откуда столько негатива? Негатива не было, был комментарий к статье с тэгом "аналитика". А вместо аналитики в статье какой то странный опус что старая моделька qwen235 кушает десятки гигабайт кэша. Ну так да, поэтому квен перешли на новые архитектуры, раза два уже, и продолжают их улучшать. И от размера 235 отказались в текущей итерации, кстати. А вот от вас негатив есть, при чем сразу с переходом на личности. Не надо так.
Надеюсь это нейрослоп а не реальная аналитика. Тупых моделей с 1bit квантованием можно и так наделать, преимущества турбокэша на длинном контексте тоже не показаны. А в реальности уже есть гибридная архитектура. да и памяти, несмотря ни на что, раздают по 128gb.
В целом интересно, PLE для мультимодальных и hybrid attention как уже стандарт в 2026 году. Будет интересно посравнивать с прямым конкурентом от qwen, надеюсь gemma окажется хоть в чем то лучше. А потом квен подтянется, и так весь год, эх мечты.
тот же qwen через алибабу можно подключить, вроде халявные 2000 api запросов все ещё на месте. Так у них ещё и модельки обновляются. Не плохо чтобы набить руку. Но доступ к реальным проектам им лучше не давать.
не рассматривали reap варианты?
учить можно на уровне робототехники, распознавание образов, работа с фреймворками. но в остальном согласен
По своему опыту, режим Expert явно не прошлый V4_lite, сильно умнее. Возможно временно вернули старый V3.2, но скорее всего это уже V4preview. По ощущениям очень хорош, ждем релиза.
Это что получается, реальные токены для реальных пользователей это уже не субсидирования история а прибыльный бизнес?
а, нельзя, понял. По рекомендации хабра буду использовать только первые 10к контекста.
а можно вы не будете решать сколько контекста нужна для большинства задач? 10к это только системные промпты загрузить для агентских задач
если вы про чат, то это не тот же дипсик, это lite модель для чата. Судя по всему её активно тестируют и доделывают с новыми релизами каждый месяц.
Мне полезно увидеть результат - на контексте у вас 17 т/с. Спасибо. Подтверждает мой изначальный тейк.
да
простите, в упор не вижу размер контекста.
От себя только добавлю только что наигрался в циферки на бенчах, с аналогичным конфигом. В какой то момент модели начинают либо жестко тупить либо все равно проседать до привычных значений. Пришел к выводу что не стоит оно того в реальном использовании.
17 tok/s вы получаете на ddr5, или с частичной выгрузкой. Но в vram оно всё ещё не помещается. там было 40-60 токенов
уже спросили в твиттере, какие из моделей выложить. Ждем на неделе обновленные
>Сомневаюсь, что вы вообще внимательно прочитали статью
Если это не обсуждение личности комментатора, то я уж не знаю что тут писать. И зачем. И кому.
И так, с обвинениями и с оценочными суждениями, потому что до этого их не было, были комментарии на статью:
1 bit модели - хайпопомойка которые не решают ни одной поставленной проблемы в ограничении инференса. Развитие этой технологии давно есть, называется динамическое квантование, идите читайте, никому не нужно, но можно поиграться. И речь идет про сравнение любых моделей, которыми могут пользоваться люди.
>Мы же знаем, что квантованные модели теряют в качестве, поэтому это именно надежда, что подобное сжатие будет в будущем работать и масштабироваться на больших моделях без потери качества
Логика вышла из чата? Мы же знаем что квантование ломает качество поэтому помолимся богу-машине чтобы квантование не ломало качество? Это ваша аргументация? Хорошо, принимаю, не спорю.
У вас плохие замечания, так ещё и читаете не внимательно, и на личности переходите в обсуждении технологий (зачем?).
>Ибо коду гемини так и не научили
Наверно просто не захотели. Мелочь то какая.
>УМЕНЬШИТЬ ВЕС ДЕШЕВЛЕ
Т.е. мы просто делаем дешевле а глупее оно не становится? Точно? Точно точно? Или нет?
>выкатил действительно рабочее 2млн окн
А это 2млн окно оно с нами в одной вселенной? Точно рабочее? Или "рабочее". Прикрутили с боку и все забыли?
>модели почти безлимитно в AI Studio т.е очевидно, ему это обходилось ГОРАЗДО дешевле
И все это сделали ради текста. А коду просто не обучили. Или, с кодом все плохо, и этот турбо кэш не помог? Или не при чем? Или что? Помогите мне (и себе) найти логическое противоречие со второго раза. Турбокэш хорош и дает результаты (которыми никто не пользуется, глупые людишки) или турбокэш не при чем и результат не очень? Или что?
> длинном контексте Attention портится, а не потому что контекст много места в VRAM скушал
Т.е. размер контекста и размер контекста вообще никак не зависят? Ок. Я вам верю, был не прав.
>Могзи модели к размеру контекста отношения не имеют
Точно. Надо просто прикрутить контекст и сразу все заработает. Так ведь? Вы то знаете как оно работает.
>У гугла модель силой в кодинге вообще никогда не блистала
Зато контекста прикрутили. Наверно большой рынок отжали, деньги получают, да?
>Зато лучше всех общалась и писала тексты
Это все хорошо, только это оценка субъективная. А там где можно оценивать объективно, но без предготовых бенчмарков, гемини никому не нужен. Но контекст работает (нет). И турбокэш не при чем (или при чем?), мы ведь о нем говорим, а не о том какой гугл хороший.
>>>Наверно gemini всех победил с суперконтекстом
Вы когда апеллируете, предоставьте факты. Пообщаемся, я с радостью.
Окей claw, перепиши новость с элементами оговорок, сомнений и отдельных размышлений.
> Весь вопрос в качестве
Так его там нет. https://www.youtube.com/watch?v=aNg47-U_x6A Вот наглядно.
Спасибо не надо. Были год назад занятные тесты с deepseek c динамичным квантованием до 1.5bit, оно даже писало осмысленный текст.
>его смысл как раз в длинном контексте
Ну давайте проведем мысленную аналитику. Допустим турбоквант такой хороший и реально решает проблемы памяти на длинном контексте. Так это же золото! Сейчас перепишем все gemini pro на турбоквант, сэкономим на памяти (или увеличим пропускную способность активных одновременно пользователей) и задавим всех с рынка! у гугла этот турбоквант целый год был в бумагах. И че? Наверно gemini всех победил с суперконтекстом и все пишут код на нем, а не на опусе с codex. Да? Нет. Т.е. в большие модели оно не пошло. Или пошло, но результат мы видим.
А на отдельно взятой малой модели в отдельно взятых тестах кто угодно может показать что при 4bit квантовании "почти ничего" не теряется. Но в реальности это не так.
>А фраза про гибридные архитектуры и 128 ГБ памяти вообще не спорит
>Локальные 200B уже не выглядят фантастикой
И кто тут невнимательно читал? 200b в q4 с гибридной архитектурой как раз полезут в 128gb, при чем вполне возможно с полным контекстом. Это уже реальность. Никому особо не нужная, потому что бестолковая и много альтернатив дешевле, чем железо за килобаксы.
>откуда столько негатива?
Негатива не было, был комментарий к статье с тэгом "аналитика". А вместо аналитики в статье какой то странный опус что старая моделька qwen235 кушает десятки гигабайт кэша. Ну так да, поэтому квен перешли на новые архитектуры, раза два уже, и продолжают их улучшать. И от размера 235 отказались в текущей итерации, кстати.
А вот от вас негатив есть, при чем сразу с переходом на личности. Не надо так.
Надеюсь это нейрослоп а не реальная аналитика.
Тупых моделей с 1bit квантованием можно и так наделать, преимущества турбокэша на длинном контексте тоже не показаны.
А в реальности уже есть гибридная архитектура. да и памяти, несмотря ни на что, раздают по 128gb.
нет
В целом интересно, PLE для мультимодальных и hybrid attention как уже стандарт в 2026 году. Будет интересно посравнивать с прямым конкурентом от qwen, надеюсь gemma окажется хоть в чем то лучше. А потом квен подтянется, и так весь год, эх мечты.
тот же qwen через алибабу можно подключить, вроде халявные 2000 api запросов все ещё на месте. Так у них ещё и модельки обновляются. Не плохо чтобы набить руку. Но доступ к реальным проектам им лучше не давать.
там про хищников речь шла, а не агрессивную толпу неизвестных мужиков.
Вы куда отвечаете то?