Pull to refresh

Comments 14

Есть шанс 'домашнему' обывателю запустить llama3.1-400b без потери качества на своем железе!?

Вряд ли. Учитывая, что неквантизированую llama3-70b нужно было запускать на парочке 3090, да с 64 оперативы, Даже квантизация не поможет 400b дотянуть хотя бы до такого уровня.
Видел темы на реддите, там 4-х битную квантизированную версию запускали на 10 3090.

Запустить-то получится, к примеру в режиме инференса с диска, но вот использовать для чего-то полезно в ближайшие несколько лет - нет. Скорость в 1/3 токена в час вряд ли для чего-то подойдёт.

Формально можно запустить на кластере, хоть с оперативной памятью, но скорость будет отвратительной

Смотря насколько домашнему. Если у пользователя есть тысяч десять на серверные железки, то можно запустить на процессоре, какой-нибудь жирный эпик (или пару) и полтерабайта памяти (даже писать такое страшно, но это уже доступная "дома" реальность). Ллмки охочи до скорости памяти, поэтому куча каналов будет в плюс.

4х машины с 128гб ram с почти любым процессором не такие дорогие как кажется, на основе ddr4 и дешёвой intel примерно 70т.р. за компьютер (корпус и систему охлаждения лучше сколхозить)

Два макбука и квантизация 4бит и специальный софт https://x.com/ac_crypto/status/1815969489990869369

Софт - делает кластер из нескольких машин

https://github.com/exo-explore/exo

Не проверял, прочитал сам утром

Шансы есть. Но:

  1. У вас не будет ускорения за счёт использования gpu. (Первый удар по производительности)

  2. У вас вряд ли завалялось под 250гб оперативной памяти на вашем компьютере, поэтому веса поочерёдно придётся считывать веса с жёсткого жиска, проводить часть вычислений, выгружать веса, загружать другие веса и опять по новой. (Это ещё медленнее будет).

    Поэтому вероятнее всего эту авантюру пускай и можно будет провернуть, но скорость получения каждого токена будет убийственно медленной. Точных цифр приводить не стану, но скажу вам что проще заплатить за аренду кластера гпу/использовать апишки тех, у которых есть свой кластер. Вероятно, это и дешевле выйдет чем издержки за условное электричество:)

Про 250гб - например некоторые консьюмерские материнские платы с чипсетами X670, B650, Z790, B760, с 4 слотами ddr5, поддерживают 256 gb оперативной памяти

Планируется ли сжатие Meta-Llama-3-70B-Instruct по методу AQLM-PV?

А то сейчас есть только базовая версия Meta-Llama-3-70B-AQLM-PV-2Bit-1x16-2Bit-1x16

Да, планируется. На сжатие требуется много компьюта, поэтому мы задерживаемся с выкладкой этой модели

Уважаемый Яндекс, подскажите пожалуйста, как можно пройти квест по преодолению первой линии техподдержки и связаться с более менее адекватными людьми? Уже почти год как я сообщаю о нетривиальном баге с пуш уведомлениями, который воспроизводиться примерно в 80% случаев, но никакой реакции кроме типовых отписок не получаю (пробовал через приложение и через почту суппорта, бесполезно).

P.S. извините за оффтопик, просто сил уже нет

У яндекс не существует поддержки, или она работает на условный 1% от требуемого.

Максимум на что хватило компанию - на оперативную реакцию в соцсетях типа пикабу и хабр (qna), где судя по всему бот по ключевым словам прибегает и выдает ничего не значащую отписку.

Чтобы вызвать этого бота, по больше ругай яндекс, используя ключевые слова, его идентифицирующий.

У меня интереснее кейс. Такое чувство что через почту общался с человеком, но когда человек не смог разобраться в вопросе - переключили на бота, который рекомендует отключить впн, которого у меня нет и переустановить приложение, как будто это влияет на логику отправки Яндексом пушей. А когда бот устаёт, он просит ещё раз отправить скриншоты, которые я уже отправлял, видимо не может осилить чтение истории выше чем на 3-4 сообщения.

Sign up to leave a comment.