Не только. В oobabooga text-generation-webui есть фича Speculative decoding. При использовании мелкой модели того же семейства заявляется ускорение выдачи токенов.
Проблема: такая модель в Q4_K_XL занимает ~21 ГБ видеопамяти.
Это не проблема вообще для локального инференса. В oobabooga text-generation-webui (llama.cpp) достаточно сделать выгрузку небольшого процента слоев в CPU. В 4060 ti спокойно входит с нормальной скоростью инференса. Не вводите людей в заблуждение.
На двух GPU с 16гб каждый нормально запускается 72b q4 и даже q5 можно.
Про зарплату в соглашениях не видел конкретных фраз. На словах что говорится можно игнорировать. А вот подписанное тобой в соглашении уже можно использовать в суде.
Вместо A1111 используйте ComfyUI. Тот универсальные и qwen3 vl на 12ГБ видео прекрасно работает. Только кастомпный год надо написать на основе года для Qwen 2.5 vl и примера кода для qwen 3 vl с huggingface. Скорее всего получится и новые мультимодалуи qwen3.5 прикрутить. Вместо ollama лучше попробуйте oobabooga text-generation-wenui. Он позволяет запускать gguf с частичной выгрузкой слоев в ОЗУ с выводом получающейся инструкции запуска llama.cpp в консоль. Можно будет для ComfyUI запустить большую модель с замедлением. Например Qwen3.5 35b.
Мне к примеру удалось таким образом запустить на 5060ti + 4060ti модель Qwen3.5 122b A10b. Причем с добавкой Qwen3.5 4b модели в качестве драфтовой ускоряли токенов
Я не понимаю с чего вы взяли что я спорю. Я лишь уточнил, что критерий помеченный как "лишь" (второстепенный, минорный), на мой взгляд является наиважнейшим в инженерии софта
Во всех конторах, даже отечественных, где доводилось работать, предписывалось Доп соглашение. В нем определяется термин комм. тайны и что ответственность за ее слив на работнике вплоть до административной или даже уголовной. И в определениях нет ни слова о ценности.
Во первых, я сразу и задисклеймил риторический прием, потому что сам интервьюер и тимлид и знаю где пределы такой стратегии. Во вторыхЛЫХ, там надо целиком глядеть шорты. Он дополнил, что следует задавать сеньорские вопросы по высшей инженерии архитектуры и прочих вещей на вроде оптимизации и управления жц. Ну точнее не прям эти вещи но из контекста ясен посыл. Сеньору сеньорские вопросы и ответственность.
Песен Янь если признаю что у тебя на интервью халява, то повалят халявщики. Чуйка интервьюшная важна.
Мы щас на проекте от таких пофигистов как раз страдаем. Они значит побырику наговнокодят друг другу автоаппрувами помогут протащить, а кто-то потом за них структуру сообщена и архитектуру выправляет сливая все сроки. И ведь держусь потому го усё в срок как из носа манагеры выковырял на бумагу.
Вы путаете ограниченный круг лиц, т.е. конкретные люди под NDA и неограниченный круг людей, т.е. нейросеть которая выступает в роли миксера транзакций. Утечки комм тайн через конкретных людей хоть как-то поддаются расследованию и люди которые себе склонировали код отвечают за его распространение перед судом.
В контексте нашего разговора выясняется, что опять нейросетям комм тайна дадена не добровольно Юр лицом, а конкретными людьми, которые нарушают NDA. Это означает лишь то, что эти люди не прихвачены за жабры. А вот если бы менеджменту было все равно, тогда бы начали с коефлюенса в паблике и открытого для индексации поисковиками.
Зачем я буду спрашивать его про алгоритмы. Это мне ещё самому надо будет их знать. Я считаю достаточно спросить готов ли он будет работать как сеньор и быть уволенным через три месяца если не тащит сеньорскую лямку.
Для бигтеха как раз важнее инженерное мышление. А эти варианты школьных алгов гуглятся. Даже детали реализации БИНС к примеру знать наизусть не нужно. Но важно иметь понимание какие вариации и части БИНС влияют на что. Кватернионов или углы Эйлера?
Так и со школьными сортировка и. Инженер из знает нас уровне концепции и понимает какие плюсы и минусы в каких ситуациях важнее. Или скажем вопрос а где ты на практике программирования часто имеешь дело с бинарными деревьями? А вон у тебя Dictionary<TKey, TVal>... А зачем там дерево нужно?
Так это один из наиважнейших моментов. Да, скорость сильно ниже и утомляемость человека будет выше чем у вайбкодера в моменте. Зато потом меньше напряга с проверкой, дебагом, оптимизацией и поддержкой
Не только. В oobabooga text-generation-webui есть фича Speculative decoding. При использовании мелкой модели того же семейства заявляется ускорение выдачи токенов.
Чуть менее чем многие
Регистрация на некоторых (точнее чуть менее чем на многих) с такими алиасами не поддерживается.
Подтверждаю
Это не проблема вообще для локального инференса. В oobabooga text-generation-webui (llama.cpp) достаточно сделать выгрузку небольшого процента слоев в CPU. В 4060 ti спокойно входит с нормальной скоростью инференса. Не вводите людей в заблуждение.
На двух GPU с 16гб каждый нормально запускается 72b q4 и даже q5 можно.
Был такой принц в Древнем Египте: "Трындец Какой-то" :D
Не видел чтобы LLM такой трудно читаемый текст выдавали. Больше похоже на очень кривой перевод. Читать очень некомфортно.
matrix.org?
Про зарплату в соглашениях не видел конкретных фраз. На словах что говорится можно игнорировать. А вот подписанное тобой в соглашении уже можно использовать в суде.
Вместо A1111 используйте ComfyUI. Тот универсальные и qwen3 vl на 12ГБ видео прекрасно работает. Только кастомпный год надо написать на основе года для Qwen 2.5 vl и примера кода для qwen 3 vl с huggingface. Скорее всего получится и новые мультимодалуи qwen3.5 прикрутить. Вместо ollama лучше попробуйте oobabooga text-generation-wenui. Он позволяет запускать gguf с частичной выгрузкой слоев в ОЗУ с выводом получающейся инструкции запуска llama.cpp в консоль. Можно будет для ComfyUI запустить большую модель с замедлением. Например Qwen3.5 35b.
Мне к примеру удалось таким образом запустить на 5060ti + 4060ti модель Qwen3.5 122b A10b. Причем с добавкой Qwen3.5 4b модели в качестве драфтовой ускоряли токенов
Я не понимаю с чего вы взяли что я спорю. Я лишь уточнил, что критерий помеченный как "лишь" (второстепенный, минорный), на мой взгляд является наиважнейшим в инженерии софта
Во всех конторах, даже отечественных, где доводилось работать, предписывалось Доп соглашение. В нем определяется термин комм. тайны и что ответственность за ее слив на работнике вплоть до административной или даже уголовной. И в определениях нет ни слова о ценности.
Эхххх Вот в советское время, когда хабр был ещё торт, за такие вещи не разбираясь прямиком в карму какашничали.... Шлюпка юмора
Во первых, я сразу и задисклеймил риторический прием, потому что сам интервьюер и тимлид и знаю где пределы такой стратегии. Во вторыхЛЫХ, там надо целиком глядеть шорты. Он дополнил, что следует задавать сеньорские вопросы по высшей инженерии архитектуры и прочих вещей на вроде оптимизации и управления жц. Ну точнее не прям эти вещи но из контекста ясен посыл. Сеньору сеньорские вопросы и ответственность.
Песен Янь если признаю что у тебя на интервью халява, то повалят халявщики. Чуйка интервьюшная важна.
Мы щас на проекте от таких пофигистов как раз страдаем. Они значит побырику наговнокодят друг другу автоаппрувами помогут протащить, а кто-то потом за них структуру сообщена и архитектуру выправляет сливая все сроки. И ведь держусь потому го усё в срок как из носа манагеры выковырял на бумагу.
Разраб, который в паблик сливает коммерческую тайну от владельца бизнеса получит лишь вызов в суд за нарушение nda
Вы путаете ограниченный круг лиц, т.е. конкретные люди под NDA и неограниченный круг людей, т.е. нейросеть которая выступает в роли миксера транзакций. Утечки комм тайн через конкретных людей хоть как-то поддаются расследованию и люди которые себе склонировали код отвечают за его распространение перед судом.
В контексте нашего разговора выясняется, что опять нейросетям комм тайна дадена не добровольно Юр лицом, а конкретными людьми, которые нарушают NDA. Это означает лишь то, что эти люди не прихвачены за жабры. А вот если бы менеджменту было все равно, тогда бы начали с коефлюенса в паблике и открытого для индексации поисковиками.
Отсылка к авторитету 😉
(Егор Бугаенко. Zerocracy)
Для бигтеха как раз важнее инженерное мышление. А эти варианты школьных алгов гуглятся. Даже детали реализации БИНС к примеру знать наизусть не нужно. Но важно иметь понимание какие вариации и части БИНС влияют на что. Кватернионов или углы Эйлера?
Так и со школьными сортировка и. Инженер из знает нас уровне концепции и понимает какие плюсы и минусы в каких ситуациях важнее. Или скажем вопрос а где ты на практике программирования часто имеешь дело с бинарными деревьями? А вон у тебя Dictionary<TKey, TVal>... А зачем там дерево нужно?
Меня тоже поздно забавило
Так это один из наиважнейших моментов. Да, скорость сильно ниже и утомляемость человека будет выше чем у вайбкодера в моменте. Зато потом меньше напряга с проверкой, дебагом, оптимизацией и поддержкой