galqiwi Jul 23 at 12:01

Как развивалась технология экстремального сжатия LLM: от QuIP до AQLM с PV-tuning

4 min

8.4K

Яндекс corporate blogOpen source*Algorithms*Machine learning*Artificial Intelligence

+44

Comments 14

rPman Jul 23 at 13:21

Есть шанс 'домашнему' обывателю запустить llama3.1-400b без потери качества на своем железе!?

Aizz Jul 23 at 15:41

Вряд ли. Учитывая, что неквантизированую llama3-70b нужно было запускать на парочке 3090, да с 64 оперативы, Даже квантизация не поможет 400b дотянуть хотя бы до такого уровня.
Видел темы на реддите, там 4-х битную квантизированную версию запускали на 10 3090.

Mike_666 Jul 23 at 16:11

Запустить-то получится, к примеру в режиме инференса с диска, но вот использовать для чего-то полезно в ближайшие несколько лет - нет. Скорость в 1/3 токена в час вряд ли для чего-то подойдёт.

rPman Jul 23 at 18:52

Формально можно запустить на кластере, хоть с оперативной памятью, но скорость будет отвратительной

shares-caisson Jul 23 at 20:12

Смотря насколько домашнему. Если у пользователя есть тысяч десять на серверные железки, то можно запустить на процессоре, какой-нибудь жирный эпик (или пару) и полтерабайта памяти (даже писать такое страшно, но это уже доступная "дома" реальность). Ллмки охочи до скорости памяти, поэтому куча каналов будет в плюс.

rPman Jul 24 at 12:08

4х машины с 128гб ram с почти любым процессором не такие дорогие как кажется, на основе ddr4 и дешёвой intel примерно 70т.р. за компьютер (корпус и систему охлаждения лучше сколхозить)

Zoolander Jul 24 at 16:48

Два макбука и квантизация 4бит и специальный софт https://x.com/ac_crypto/status/1815969489990869369

Софт - делает кластер из нескольких машин

https://github.com/exo-explore/exo

Не проверял, прочитал сам утром

Yaschik Jul 28 at 01:47

Шансы есть. Но:

У вас не будет ускорения за счёт использования gpu. (Первый удар по производительности)
У вас вряд ли завалялось под 250гб оперативной памяти на вашем компьютере, поэтому веса поочерёдно придётся считывать веса с жёсткого жиска, проводить часть вычислений, выгружать веса, загружать другие веса и опять по новой. (Это ещё медленнее будет).
Поэтому вероятнее всего эту авантюру пускай и можно будет провернуть, но скорость получения каждого токена будет убийственно медленной. Точных цифр приводить не стану, но скажу вам что проще заплатить за аренду кластера гпу/использовать апишки тех, у которых есть свой кластер. Вероятно, это и дешевле выйдет чем издержки за условное электричество:)

RenatSh Aug 1 at 15:34

Про 250гб - например некоторые консьюмерские материнские платы с чипсетами X670, B650, Z790, B760, с 4 слотами ddr5, поддерживают 256 gb оперативной памяти

slivka_83 Jul 25 at 22:49

Планируется ли сжатие Meta-Llama-3-70B-Instruct по методу AQLM-PV?

А то сейчас есть только базовая версия Meta-Llama-3-70B-AQLM-PV-2Bit-1x16-2Bit-1x16

galqiwi Jul 26 at 13:40

Да, планируется. На сжатие требуется много компьюта, поэтому мы задерживаемся с выкладкой этой модели

Sazonov Jul 29 at 00:40

Уважаемый Яндекс, подскажите пожалуйста, как можно пройти квест по преодолению первой линии техподдержки и связаться с более менее адекватными людьми? Уже почти год как я сообщаю о нетривиальном баге с пуш уведомлениями, который воспроизводиться примерно в 80% случаев, но никакой реакции кроме типовых отписок не получаю (пробовал через приложение и через почту суппорта, бесполезно).

P.S. извините за оффтопик, просто сил уже нет

rPman Jul 29 at 05:53

У яндекс не существует поддержки, или она работает на условный 1% от требуемого.

Максимум на что хватило компанию - на оперативную реакцию в соцсетях типа пикабу и хабр (qna), где судя по всему бот по ключевым словам прибегает и выдает ничего не значащую отписку.

Чтобы вызвать этого бота, по больше ругай яндекс, используя ключевые слова, его идентифицирующий.

Sazonov Jul 29 at 12:16

У меня интереснее кейс. Такое чувство что через почту общался с человеком, но когда человек не смог разобраться в вопросе - переключили на бота, который рекомендует отключить впн, которого у меня нет и переустановить приложение, как будто это влияет на логику отправки Яндексом пушей. А когда бот устаёт, он просит ещё раз отправить скриншоты, которые я уже отправлял, видимо не может осилить чтение истории выше чем на 3-4 сообщения.