Комментарии 14
Есть шанс 'домашнему' обывателю запустить llama3.1-400b без потери качества на своем железе!?
Вряд ли. Учитывая, что неквантизированую llama3-70b нужно было запускать на парочке 3090, да с 64 оперативы, Даже квантизация не поможет 400b дотянуть хотя бы до такого уровня.
Видел темы на реддите, там 4-х битную квантизированную версию запускали на 10 3090.
Запустить-то получится, к примеру в режиме инференса с диска, но вот использовать для чего-то полезно в ближайшие несколько лет - нет. Скорость в 1/3 токена в час вряд ли для чего-то подойдёт.
Формально можно запустить на кластере, хоть с оперативной памятью, но скорость будет отвратительной
Смотря насколько домашнему. Если у пользователя есть тысяч десять на серверные железки, то можно запустить на процессоре, какой-нибудь жирный эпик (или пару) и полтерабайта памяти (даже писать такое страшно, но это уже доступная "дома" реальность). Ллмки охочи до скорости памяти, поэтому куча каналов будет в плюс.
Два макбука и квантизация 4бит и специальный софт https://x.com/ac_crypto/status/1815969489990869369
Софт - делает кластер из нескольких машин
https://github.com/exo-explore/exo
Не проверял, прочитал сам утром
Шансы есть. Но:
У вас не будет ускорения за счёт использования gpu. (Первый удар по производительности)
У вас вряд ли завалялось под 250гб оперативной памяти на вашем компьютере, поэтому веса поочерёдно придётся считывать веса с жёсткого жиска, проводить часть вычислений, выгружать веса, загружать другие веса и опять по новой. (Это ещё медленнее будет).
Поэтому вероятнее всего эту авантюру пускай и можно будет провернуть, но скорость получения каждого токена будет убийственно медленной. Точных цифр приводить не стану, но скажу вам что проще заплатить за аренду кластера гпу/использовать апишки тех, у которых есть свой кластер. Вероятно, это и дешевле выйдет чем издержки за условное электричество:)
Планируется ли сжатие Meta-Llama-3-70B-Instruct по методу AQLM-PV?
А то сейчас есть только базовая версия Meta-Llama-3-70B-AQLM-PV-2Bit-1x16-2Bit-1x16
Уважаемый Яндекс, подскажите пожалуйста, как можно пройти квест по преодолению первой линии техподдержки и связаться с более менее адекватными людьми? Уже почти год как я сообщаю о нетривиальном баге с пуш уведомлениями, который воспроизводиться примерно в 80% случаев, но никакой реакции кроме типовых отписок не получаю (пробовал через приложение и через почту суппорта, бесполезно).
P.S. извините за оффтопик, просто сил уже нет
У яндекс не существует поддержки, или она работает на условный 1% от требуемого.
Максимум на что хватило компанию - на оперативную реакцию в соцсетях типа пикабу и хабр (qna), где судя по всему бот по ключевым словам прибегает и выдает ничего не значащую отписку.
Чтобы вызвать этого бота, по больше ругай яндекс, используя ключевые слова, его идентифицирующий.
У меня интереснее кейс. Такое чувство что через почту общался с человеком, но когда человек не смог разобраться в вопросе - переключили на бота, который рекомендует отключить впн, которого у меня нет и переустановить приложение, как будто это влияет на логику отправки Яндексом пушей. А когда бот устаёт, он просит ещё раз отправить скриншоты, которые я уже отправлял, видимо не может осилить чтение истории выше чем на 3-4 сообщения.
Как развивалась технология экстремального сжатия LLM: от QuIP до AQLM с PV-tuning