Периодически локально использую Qwen2.5-Coder-32B-Instruct в четвертом кванте для рефакторинга, в сравнении с Q5 прям особой разницы не заметил, но благодаря меньшему весу в тот же объём vram помещается больше контекста.
Надо понимать что ответы любой LLM очень "недетерминированы", сейчас она ответила верно, но при следующем свайпе напишет чушь, и наоборот. Реальную потерю интеллекта можно отследить только многократной проверкой и тестами отклонения токенов в сравнении с неквантованной моделью.
Я видел много тестирований, в среднем у ~30b моделей отклонения от эталона выглядят следующим образом:
Как показала практика, рост релевантного датасета довольно быстро перестает давать адекватную отдачу. Мы видели огромные скачки в сообразительности LLM между 8b и 100b моделями, но вот дальше все сложнее. Разница между 100b и 400b уже не такая явная, уже больше превалирует горизонтальный рост, оставляя старые косяки мышления.
Я думаю дальнейший взрывной рост произойдет только когда придумают какой-то альтернативный алгоритм работы для LLM, который даже с ограниченным датасетом будет давать лучше результаты чем текущие корпоративные монстры, пусть и узкой области.
Сама технология DLSS отличная, невозможно бесконечно наращивать мощность чипа, видеокарты и так уже еле в корпус вмещаются. Нужно параллельно искать другие пути, где мы ещё не перешагнули 20% из закона Парето.
Впрочем меня новая линейка карт все равно разочаровала, я ждал хотя бы 24GB в 5080. По сути для любителей LLM пятая серия ничего не принесла, 32GB на флагмане 5090 за его стоимость, это ни рыба, ни мясо. Одна надежда на их новое решение рассчитанные специально на LLM, вот только есть огромные сомнения на счет его производительности в сравнении с теми же карточками 3 серии, ждем тестов.
Ну если подходить чисто с точки зрения ощущений разница между 120 и 160 значительна. Включите 120, подвигайте мышкой, а потом включите 160. Плавность бросится в глаза. Я проверял. Другое дело что практического применения кроме как: "смотри как могу" этим фепесам нет, современные игры в реальных сценариях даже на топ конфигурациях редко выдадут вам фпс сильно выше сотни, в добавок фпс будет переменным в зависимости от происходящего. Проще залочить частоту кадров на тех же 120, чтобы он не прыгал в процессе.
Пузырь чего? LLM объективно полезный инструмент и неплохо справляется с своими функциями. Он никуда не исчезнет. Сейчас мы уперлись в потолок, когда увеличение датасета уже не так эффективно влияет на сообразительность нейросети, и как следствие роль железа начала снижаться, но расти все ещё есть куда, если не в объёме данных то в подходе, gpt-o1 тому пример.
Зря вы так о Beat Saber. Сейчас это как раз одно из немногих развлечений в VR которое может затянуть на длительное время. Эта игра идеально подходит своей платформе, имеет огромный порог входа и потолок развития(как и все ритм игры впрочем), я думаю за год периодически-регулярной игры, вы в лучше достигните уровня навыков среднего игрока. Просто не всем такое нравится, но это уже не проблема игры.
Разводить демагогию: "а что если не придет", "а что если не ко всем придет", "а что если не дадут данные", "а что если дадут" и т.д. Смысла не вижу.
Я не играю в "может быть", я свожу риски к разумному минимуму. Это единственный здравый путь для специалиста, и наша задача если вы им являетесь, помогать обывателем не совершать эти ошибки. Т.к рано или поздно и "палка" выстрелит.
Завтра ваш сервер станет частью ботнета, и с него пойдут ддость гос-сайты, а за вами придет товарищ майор, и покажет распечатку с оплатой вами сервера. Слушать что вы дали кому-то пароль он точно не станет. По сути готовый мануал как улететь за решетку на пустом месте. Про какую-то анонимность при покупке сервера и речи не идет, это и для опытного задача не тривиальная, а вы сами заикнулись про "целевую аудиторию"(эти ещё и пароль не поменяют)
Я понимаю что должен быть баланс между сложным для специалистов, и простым для обывателей, но ни при каких условиях нельзя отдавать полный контроль над сервером за который вы несете ответственность.
Ну советские инструменты это вообще свой мир и своя атмосфера) Если же не погружаться в какой-то кастом, то на большинстве конвейерных гитар вы увидите классические 3 5 7 9 12 и т.д.
--quantkv действительно даёт прирост скорости, но ценой тому отключение ContextShift, эти две опции несовместимы. Более старая совместимая реализация в виде SmartContext, резервирует под себя половину свободной памяти отданной под контекст, если у вас он был 4096, фактически будет работать как 2048, что не очень хорошо.
В принципе можно отключить любую дополнительную работу с контекстом на уровне бекэнда, а проблему "мгновенного забывания" пробовать решить на уровне клиента. К примеру на SL существует расширение с названием Summarize, оно раз в N(подбирается под размер контекста) сообщений пытается "подытожить" все что лежит в памяти, собрать в один текст и далее уже подсовывать его нейронке в начале каждого сообщения(по сути что-то похожее делает SmartContext). В целом оно даже как-то работает, но иногда может "подытожить" откровенную чепуху от которой бот начнет дурить.
На моей локальной машине с 16vram 64 ram рам, при использовании тяжелой 20b_Q5 модели, от "--quantkv 2" я получаю прирост скорости на бенчмарке где-то с 6.5T/s до 8T/s, приятно но не то что бы имело значение. Более легкие 13b модели растут с условных 40T/s до 50T/s. Опять же приятно, но не сильно влияет на пользовательский опыт.
Лад это и есть "порожек" к которому прижимается струна. Более сильное продавливание её внутрь вызовет только завышение звука т.к струна вытягивается больше необходимого, в простонародий называется "пережатая нота".
Подсказками же служат точки на грифе, они расположены одинаково на всех гитарах и помогают визуально различать лады.
При всей моей большой любви к пингвинам (не сарказм), играть с линукса это троллейбус из хлеба. Делать адаптацию ради 2.5 человек с "специфичными вкусами" уж точно не стоит времязатрат, разве что в качестве личной хотелки автора, но ожидать такое "по умолчанию" глупо. Каждому инструменту свои задачи.
Вероятно зависит от хрящевой ткани конкретного человека (которая и работает мембраной, а не кости) У меня Xiaomi Earphones Explore, я их использую для езды по городу на велосипеде/самокате, чтобы слышать всех вокруг и музыку одновременно. И их не заглушает даже пыхтящий под ухом автобус, само собой шум будет мешать но ничего критичного.
"Была проблема, мы её решили, мы молодцы, конец" - Какая-то предыстория без самой статьи.
Мне как человеку который перетаскивал весьма жирную базу на тысячи узлов с 3 версии забикса на седьмую, было бы интересно как ещё можно было решить эту задачу, через какие костыли вы пересобрали темплейты и т.д. Но у вас в статье только констатация факта что вы это сделали и никаких технических подробностей. Для кого/чего она написана?
На самом деле здравое зерно в вашем комментарии присутствует, если бы я был месте владельца подобного ресурса и решил уйти "на покой", думаю поступил бы похожим образом, смерть цифровой личности так сказать.
Но правду мы никогда не узнаем, так или иначе большая благодарность человеку за его работу.
Не понимаю как люди засыпают под книги или что-то подобное. Моему мозгу нельзя слушать ничего осмысленного в процессе засыпания, сразу погружаешься в происходящее и сон как рукой снимает, даже если перед этим буквально "рубило".
Периодически локально использую Qwen2.5-Coder-32B-Instruct в четвертом кванте для рефакторинга, в сравнении с Q5 прям особой разницы не заметил, но благодаря меньшему весу в тот же объём vram помещается больше контекста.
Надо понимать что ответы любой LLM очень "недетерминированы", сейчас она ответила верно, но при следующем свайпе напишет чушь, и наоборот. Реальную потерю интеллекта можно отследить только многократной проверкой и тестами отклонения токенов в сравнении с неквантованной моделью.
Я видел много тестирований, в среднем у ~30b моделей отклонения от эталона выглядят следующим образом:
(все очень примерно)
q6_K: ~1%
q5_K_M: 2-3%
q4_K_M: 4-6%
q3_K_M: 20-30%
Чем жирнее модель тем меньше потери. 70b модели почти не теряют мозги даже на q3, и наоборот, 12b тупеют почти на 10% уже на q4.
Как показала практика, рост релевантного датасета довольно быстро перестает давать адекватную отдачу. Мы видели огромные скачки в сообразительности LLM между 8b и 100b моделями, но вот дальше все сложнее. Разница между 100b и 400b уже не такая явная, уже больше превалирует горизонтальный рост, оставляя старые косяки мышления.
Я думаю дальнейший взрывной рост произойдет только когда придумают какой-то альтернативный алгоритм работы для LLM, который даже с ограниченным датасетом будет давать лучше результаты чем текущие корпоративные монстры, пусть и узкой области.
Сама технология DLSS отличная, невозможно бесконечно наращивать мощность чипа, видеокарты и так уже еле в корпус вмещаются. Нужно параллельно искать другие пути, где мы ещё не перешагнули 20% из закона Парето.
Впрочем меня новая линейка карт все равно разочаровала, я ждал хотя бы 24GB в 5080.
По сути для любителей LLM пятая серия ничего не принесла, 32GB на флагмане 5090 за его стоимость, это ни рыба, ни мясо. Одна надежда на их новое решение рассчитанные специально на LLM, вот только есть огромные сомнения на счет его производительности в сравнении с теми же карточками 3 серии, ждем тестов.
Ну если подходить чисто с точки зрения ощущений разница между 120 и 160 значительна. Включите 120, подвигайте мышкой, а потом включите 160. Плавность бросится в глаза. Я проверял.
Другое дело что практического применения кроме как: "смотри как могу" этим фепесам нет, современные игры в реальных сценариях даже на топ конфигурациях редко выдадут вам фпс сильно выше сотни, в добавок фпс будет переменным в зависимости от происходящего. Проще залочить частоту кадров на тех же 120, чтобы он не прыгал в процессе.
Пузырь чего? LLM объективно полезный инструмент и неплохо справляется с своими функциями. Он никуда не исчезнет.
Сейчас мы уперлись в потолок, когда увеличение датасета уже не так эффективно влияет на сообразительность нейросети, и как следствие роль железа начала снижаться, но расти все ещё есть куда, если не в объёме данных то в подходе, gpt-o1 тому пример.
Зря вы так о Beat Saber. Сейчас это как раз одно из немногих развлечений в VR которое может затянуть на длительное время. Эта игра идеально подходит своей платформе, имеет огромный порог входа и потолок развития(как и все ритм игры впрочем), я думаю за год периодически-регулярной игры, вы в лучше достигните уровня навыков среднего игрока.
Просто не всем такое нравится, но это уже не проблема игры.
... хохоча запушила в пятницу на прод.
Я не знаю с кем вы воюете, но моя позиция по вашему последнему вопросу написана в моем предыдущем сообщении.
Разводить демагогию: "а что если не придет", "а что если не ко всем придет", "а что если не дадут данные", "а что если дадут" и т.д. Смысла не вижу.
Я не играю в "может быть", я свожу риски к разумному минимуму.
Это единственный здравый путь для специалиста, и наша задача если вы им являетесь, помогать обывателем не совершать эти ошибки. Т.к рано или поздно и "палка" выстрелит.
Завтра ваш сервер станет частью ботнета, и с него пойдут ддость гос-сайты, а за вами придет товарищ майор, и покажет распечатку с оплатой вами сервера. Слушать что вы дали кому-то пароль он точно не станет. По сути готовый мануал как улететь за решетку на пустом месте.
Про какую-то анонимность при покупке сервера и речи не идет, это и для опытного задача не тривиальная, а вы сами заикнулись про "целевую аудиторию"(эти ещё и пароль не поменяют)
Я понимаю что должен быть баланс между сложным для специалистов, и простым для обывателей, но ни при каких условиях нельзя отдавать полный контроль над сервером за который вы несете ответственность.
Ну советские инструменты это вообще свой мир и своя атмосфера)
Если же не погружаться в какой-то кастом, то на большинстве конвейерных гитар вы увидите классические 3 5 7 9 12 и т.д.
--quantkv действительно даёт прирост скорости, но ценой тому отключение ContextShift, эти две опции несовместимы. Более старая совместимая реализация в виде SmartContext, резервирует под себя половину свободной памяти отданной под контекст, если у вас он был 4096, фактически будет работать как 2048, что не очень хорошо.
В принципе можно отключить любую дополнительную работу с контекстом на уровне бекэнда, а проблему "мгновенного забывания" пробовать решить на уровне клиента.
К примеру на SL существует расширение с названием Summarize, оно раз в N(подбирается под размер контекста) сообщений пытается "подытожить" все что лежит в памяти, собрать в один текст и далее уже подсовывать его нейронке в начале каждого сообщения(по сути что-то похожее делает SmartContext). В целом оно даже как-то работает, но иногда может "подытожить" откровенную чепуху от которой бот начнет дурить.
На моей локальной машине с 16vram 64 ram рам, при использовании тяжелой 20b_Q5 модели, от "--quantkv 2" я получаю прирост скорости на бенчмарке где-то с 6.5T/s до 8T/s, приятно но не то что бы имело значение. Более легкие 13b модели растут с условных 40T/s до 50T/s. Опять же приятно, но не сильно влияет на пользовательский опыт.
Лад это и есть "порожек" к которому прижимается струна.
Более сильное продавливание её внутрь вызовет только завышение звука т.к струна вытягивается больше необходимого, в простонародий называется "пережатая нота".
Подсказками же служат точки на грифе, они расположены одинаково на всех гитарах и помогают визуально различать лады.
При всей моей большой любви к пингвинам (не сарказм), играть с линукса это троллейбус из хлеба. Делать адаптацию ради 2.5 человек с "специфичными вкусами" уж точно не стоит времязатрат, разве что в качестве личной хотелки автора, но ожидать такое "по умолчанию" глупо. Каждому инструменту свои задачи.
Вероятно зависит от хрящевой ткани конкретного человека (которая и работает мембраной, а не кости)
У меня Xiaomi Earphones Explore, я их использую для езды по городу на велосипеде/самокате, чтобы слышать всех вокруг и музыку одновременно. И их не заглушает даже пыхтящий под ухом автобус, само собой шум будет мешать но ничего критичного.
"Была проблема, мы её решили, мы молодцы, конец" - Какая-то предыстория без самой статьи.
Мне как человеку который перетаскивал весьма жирную базу на тысячи узлов с 3 версии забикса на седьмую, было бы интересно как ещё можно было решить эту задачу, через какие костыли вы пересобрали темплейты и т.д. Но у вас в статье только констатация факта что вы это сделали и никаких технических подробностей. Для кого/чего она написана?
На самом деле здравое зерно в вашем комментарии присутствует, если бы я был месте владельца подобного ресурса и решил уйти "на покой", думаю поступил бы похожим образом, смерть цифровой личности так сказать.
Но правду мы никогда не узнаем, так или иначе большая благодарность человеку за его работу.
Не понимаю как люди засыпают под книги или что-то подобное. Моему мозгу нельзя слушать ничего осмысленного в процессе засыпания, сразу погружаешься в происходящее и сон как рукой снимает, даже если перед этим буквально "рубило".