Search
Write a publication
Pull to refresh
3
0

Пользователь

Send message

Я, возможно, не очень корректно выразился (а ребята из Meta зря дали 2м разным моделям название LLama 3.2, устроив путаницу).

ollama - это действительно обёртка вокруг llama.cpp - но я не утверждал, что только вокруг неё. Она может и другие GGML/С либы для реализации мультимодальности, но для генерации кода (как в примере выше) используется исключительно llama.cpp - я именно об этой части писал и про избыточность тоже.

>> Плюс, они в целом судя по их документации ряд оптимизаций своих накидывают и там где llama.cpp точно используется.

летом у ollama в Issue был вопрос - почему не используется AVX2 оптимизация(только AVX), если llama.cpp/ggml её поддерживают. Ответ же - и так много всего нужно собирать, а оптимизация под AVX2 даёт в пределах 5-10% скорости. Так что не только накидывают, но и удаляют имеющиеся.

PS: вот эту вашу мысль я совсем не понял:

>> Так что скорее всего Ollama какой-то свой скрипт для инференса писали, а не просто обёртку.

скрипт - это намного более примитивная вещь, чем компилируемая обёртка на C подобном языке go, на котром ollama и написана

называется режим Tesla Compute Cluster (TCC) - есть в старших Quadro (там где есть nvlink) и почти во всех Tesla

one of the features of NVLink on Quadros is the ability to combine the video memory on both cards and share it between them.

https://www.pugetsystems.com/labs/articles/NVLink-on-NVIDIA-GeForce-RTX-2080-2080-Ti-in-Windows-10-1253/

Мало влияет. Веса сетки преварительно загружаются на ноды (вот тут будет заметна скорость PCIE x1) - а дальше между ними гоняется лишь KV-cache (который зависит от настроек) + команды исполнения - так что если не фанатсвовать - его размер будет небольшой - и траффик будет на уровне десятков мегабайт в секунду(зависит от железа и сетки). Но сильно влияет латентность - вот тут райзер может тоже повлиять.

У llama.cpp (для которой упомянутая тут olama является лишь обёрткой) есть даже режим RPC(Remote Procedure Call), позволяющий гонять её по сети уровня 1Gb/s Ethernet, разнося GPU по нескольким ПК.

Написал пару комментариев чуть выше - если кратко - то NVLink+Quadro и не тестировался вовсе. Корректные цифры для такой системы из 2х А5000 для генерации кода (на модели Llama-3.1-70B_Q4_K_M, которая лежит в основе мультимодальной Llama-3.2-90В) должны быть сильно больше 10 токенов в секунду (а не 3.68 токенов в секунду, как тут).

По моим оценкам, корректно настроенная система выдаст в районе 15-17 токенов.

>>Для наглядности теста нами была выбрана последняя языковая модель LLaMA 3.2 на 90 миллиардов параметров.

Эта модель для анализа картинок+текста. Для генерации текста/кода она соответсвует LLama 3.1 70B - разница в 20 млрд параметров как раз и относится к картинкам и вполне возможно, что всё-равно у вас загружается и бесполезно висит в видеопамяти(нужно смотреть по логам).

Мета зря для одной и той же модели использует индексы 3.1 и 3.2 - и это многих вводит в заблуждение

>>В наших тестах мы используем версию модели с 4-битной квантизацией. Такой выбор не случаен:

Добавлю из личного опыта - для генерации кода подходит квантизация минимум Q6_K, а лучше Q8_0. Всё, что ниже - может начать давать сильно отличающийся от оригинальной модели результат. Причём это зависит от вашего запроса - на чём-то простом результат будет корректный , а на чём-то сложном уже будет что-то совсем не то .

Непонятен выбор ollama - написанной на go обёртки вокург llama.cpp, которая вносит к тому же дополнительное(хоть и небольшое) потребление видеопамяти

Если хотите потестить производительность - возьмите llama.cpp, соберите конкретно под ваше железо, воспользуйтесь встроенным llama-bench или llama-cli. Поиграйтесь с параметрами -ngl (number of layers to store in VRA) для каждого CUDA устройтва.

>>Мониторинг отображал картину которая больше походила на то, что по какой-то причине в один момент времени была в большей степени загружена либо одна, либо другая видеокарта, хотя иногда нагрузка и была поровну.

Абсолютно нормальное поведение для LLM сети на нескольких отдельных нодах(что cuda, что cpu, что через сеть Ethernet). Собственно, вопрос - почему у вас Квадры отображаются как 2 отдельных устройства, а не одно единое на 48ГБ VRAM? (в этом же и смысл NV-link, а не в скорости)

Хотя бы потому, что очки - это 3 модели - центральная часть и 2 дужки.

Ну и в целом плохо генераятся модели с большим соотношением между длиной/шириной/высотой

>>Зато у меня теперь есть запись концерта Live Aid 1985 года: приятно, что это не переиздание, а «тот самый» живой эфир 33-летней давности.

Как и Вудсток ранее - этот концерт изменил мир. Восхищаюсь вашим приобретением!

И славный техно-фетиш вы себе завели!

Забросили, как я понял ;)

Собрал образ на QEmu c ядром с поддеркой уже RVV 1.0 - потихоньку буду в таком виде развлекаться ;)

Я решил эту плату не брать - но собрал Debian/Sid image на QEmu 7.0 c ядром 5.18-rc6 c поддержкой уже сразу RVV 1.0 (майское) - о скорости промолчу, но демки, обновлённые до 1.0 идут ;)

Поискал - существуют USB-C мама-папа с магнитным креплением - но текущие вывернуты вбок. Наверняка кто-то выпустит и в более удобном форм-факторе - но в любом случае лишь 1 разьём - это не очень хорошо.

У текущего поколения AMD ещё нет USB4/TB

Жаль, что они изначально о док-станции не думали, не разместив разьем на нижней грани консоли.

Хотелось бы добавить, что игра через достижение культурной победы подходящими для этого нациями (Греки с амфитеатром или Мария Медичи/Франция) позволяет познакомится с бОльшим количеством великих людей (Great Writer/Artist/Musician) и их произведений, включая прямые цитаты(так и устоявшиеся переводы на английский с других языков).

Я возможно, что-то упустил, но у меня никак не складываются цифры - с одной стороны, это потенциальный риск для здоровья человека (и страховые выплаты порядка 1 млн $), с другой суммы порядка 10к$ - это дорого (как за готовое решение, так и за девелоперские маки), использование дешёвого Intel Core со специально отключенным ECC для памяти вместо Xeon/любого AMD и т.д.

Ну и технический вопрос - как вы учитываете, что Windows может перезагрузить GPU драйвер в любой момент?

Мне кажется, что вы никогда не общались с этими немецкими/австрийскими фермерами, владеющими Нивами. Это ныне альтернатива квадрациклам, только с крышей ;)

iFixit считает, что лучше бы там был модульный порт для зарядки.

Про MicroSD речи и не идёт - только про USB-C(питание). Они хоть и более надёжны, чем microUSB, но точно так же являются первым кандидатом на выход из строя/замену

Для тех планшетов, у которых разблокирован загрузчик (тут прпоизводители каждый по своему чудит) - а потом уже по списку популярности с xda для Lineage (указанный выше 4pda в той или иной мере зеркалит на русском, но не для всех устройств).

Ещё важный момент - кроме гугла, все выпускают обновления с длительными задержками (от 6 месяцев до года бывает у самсунга) - Lineage обычно появляется спустя дни/недели после поубликации всех исходников Androida

Несмотря на инсинуации автора, я к тем важным длня него минусам отношения не имею, а вот как ему обьяснить, что статья о плате 3 недели наза была - и все, кому было интересно - там отписались. И плата будет не готова для работы больше, чем поморгать светодиодом, ещё немалое время?

Кроме того автор не упоминает нарушение лицензий в её создании и зачем-то приплетает творение Miguel de Icaza.

just in case - На Хабре была статья 3 недели назад об этой плате https://habr.com/ru/post/646655/ - написанная не переводчиком. со всеми её проблемами. и автор, и я уже знаем чуть больше

1
23 ...

Information

Rating
Does not participate
Registered
Activity