Pull to refresh
97
Матвеев Алексей Сергеевич@HomoLuden

Developer

43
Subscribers
Send message

Модель для мелких задач

Не только. В oobabooga text-generation-webui есть фича Speculative decoding. При использовании мелкой модели того же семейства заявляется ускорение выдачи токенов.

Регистрация на некоторых (точнее чуть менее чем на многих) с такими алиасами не поддерживается.

Проблема: такая модель в Q4_K_XL занимает ~21 ГБ видеопамяти.

Это не проблема вообще для локального инференса. В oobabooga text-generation-webui (llama.cpp) достаточно сделать выгрузку небольшого процента слоев в CPU. В 4060 ti спокойно входит с нормальной скоростью инференса. Не вводите людей в заблуждение.

На двух GPU с 16гб каждый нормально запускается 72b q4 и даже q5 можно.

Да, это именно и специально минимальный стартовый пример. Распиленный ровно только настолько, насколько нужно для того, чтобы дать хорошее начало

Был такой принц в Древнем Египте: "Трындец Какой-то" :D

Не видел чтобы LLM такой трудно читаемый текст выдавали. Больше похоже на очень кривой перевод. Читать очень некомфортно.

Про зарплату в соглашениях не видел конкретных фраз. На словах что говорится можно игнорировать. А вот подписанное тобой в соглашении уже можно использовать в суде.

Вместо A1111 используйте ComfyUI. Тот универсальные и qwen3 vl на 12ГБ видео прекрасно работает. Только кастомпный год надо написать на основе года для Qwen 2.5 vl и примера кода для qwen 3 vl с huggingface. Скорее всего получится и новые мультимодалуи qwen3.5 прикрутить. Вместо ollama лучше попробуйте oobabooga text-generation-wenui. Он позволяет запускать gguf с частичной выгрузкой слоев в ОЗУ с выводом получающейся инструкции запуска llama.cpp в консоль. Можно будет для ComfyUI запустить большую модель с замедлением. Например Qwen3.5 35b.

Мне к примеру удалось таким образом запустить на 5060ti + 4060ti модель Qwen3.5 122b A10b. Причем с добавкой Qwen3.5 4b модели в качестве драфтовой ускоряли токенов

Я не понимаю с чего вы взяли что я спорю. Я лишь уточнил, что критерий помеченный как "лишь" (второстепенный, минорный), на мой взгляд является наиважнейшим в инженерии софта

Во всех конторах, даже отечественных, где доводилось работать, предписывалось Доп соглашение. В нем определяется термин комм. тайны и что ответственность за ее слив на работнике вплоть до административной или даже уголовной. И в определениях нет ни слова о ценности.

Эхххх Вот в советское время, когда хабр был ещё торт, за такие вещи не разбираясь прямиком в карму какашничали.... Шлюпка юмора

Во первых, я сразу и задисклеймил риторический прием, потому что сам интервьюер и тимлид и знаю где пределы такой стратегии. Во вторыхЛЫХ, там надо целиком глядеть шорты. Он дополнил, что следует задавать сеньорские вопросы по высшей инженерии архитектуры и прочих вещей на вроде оптимизации и управления жц. Ну точнее не прям эти вещи но из контекста ясен посыл. Сеньору сеньорские вопросы и ответственность.

Песен Янь если признаю что у тебя на интервью халява, то повалят халявщики. Чуйка интервьюшная важна.

Мы щас на проекте от таких пофигистов как раз страдаем. Они значит побырику наговнокодят друг другу автоаппрувами помогут протащить, а кто-то потом за них структуру сообщена и архитектуру выправляет сливая все сроки. И ведь держусь потому го усё в срок как из носа манагеры выковырял на бумагу.

Разраб, который в паблик сливает коммерческую тайну от владельца бизнеса получит лишь вызов в суд за нарушение nda

Вы путаете ограниченный круг лиц, т.е. конкретные люди под NDA и неограниченный круг людей, т.е. нейросеть которая выступает в роли миксера транзакций. Утечки комм тайн через конкретных людей хоть как-то поддаются расследованию и люди которые себе склонировали код отвечают за его распространение перед судом.

В контексте нашего разговора выясняется, что опять нейросетям комм тайна дадена не добровольно Юр лицом, а конкретными людьми, которые нарушают NDA. Это означает лишь то, что эти люди не прихвачены за жабры. А вот если бы менеджменту было все равно, тогда бы начали с коефлюенса в паблике и открытого для индексации поисковиками.

Отсылка к авторитету 😉

Зачем я буду спрашивать его про алгоритмы. Это мне ещё самому надо будет их знать. Я считаю достаточно спросить готов ли он будет работать как сеньор и быть уволенным через три месяца если не тащит сеньорскую лямку.

(Егор Бугаенко. Zerocracy)

Для бигтеха как раз важнее инженерное мышление. А эти варианты школьных алгов гуглятся. Даже детали реализации БИНС к примеру знать наизусть не нужно. Но важно иметь понимание какие вариации и части БИНС влияют на что. Кватернионов или углы Эйлера?

Так и со школьными сортировка и. Инженер из знает нас уровне концепции и понимает какие плюсы и минусы в каких ситуациях важнее. Или скажем вопрос а где ты на практике программирования часто имеешь дело с бинарными деревьями? А вон у тебя Dictionary<TKey, TVal>... А зачем там дерево нужно?

но лишь потому

Так это один из наиважнейших моментов. Да, скорость сильно ниже и утомляемость человека будет выше чем у вайбкодера в моменте. Зато потом меньше напряга с проверкой, дебагом, оптимизацией и поддержкой

1
23 ...

Information

Rating
5,259-th
Location
Саратов, Саратовская обл., Россия
Date of birth
Registered
Activity