Comments / Profile of akaAzazello / Habr

How to become an author

Andrey @akaAzazello

Пользователь

ProfileArticlesPostsNewsComments400

Мы потратили 320 тысяч рублей ради Nvlink для нейросетей. Но был ли в этом смысл?

akaAzazello Nov 27 2024 at 18:01

Я, возможно, не очень корректно выразился (а ребята из Meta зря дали 2м разным моделям название LLama 3.2, устроив путаницу).

ollama - это действительно обёртка вокруг llama.cpp - но я не утверждал, что только вокруг неё. Она может и другие GGML/С либы для реализации мультимодальности, но для генерации кода (как в примере выше) используется исключительно llama.cpp - я именно об этой части писал и про избыточность тоже.

>> Плюс, они в целом судя по их документации ряд оптимизаций своих накидывают и там где llama.cpp точно используется.

летом у ollama в Issue был вопрос - почему не используется AVX2 оптимизация(только AVX), если llama.cpp/ggml её поддерживают. Ответ же - и так много всего нужно собирать, а оптимизация под AVX2 даёт в пределах 5-10% скорости. Так что не только накидывают, но и удаляют имеющиеся.

PS: вот эту вашу мысль я совсем не понял:

>> Так что скорее всего Ollama какой-то свой скрипт для инференса писали, а не просто обёртку.

скрипт - это намного более примитивная вещь, чем компилируемая обёртка на C подобном языке go, на котром ollama и написана

Мы потратили 320 тысяч рублей ради Nvlink для нейросетей. Но был ли в этом смысл?

akaAzazello Nov 25 2024 at 13:40

называется режим Tesla Compute Cluster (TCC) - есть в старших Quadro (там где есть nvlink) и почти во всех Tesla

one of the features of NVLink on Quadros is the ability to combine the video memory on both cards and share it between them.

https://www.pugetsystems.com/labs/articles/NVLink-on-NVIDIA-GeForce-RTX-2080-2080-Ti-in-Windows-10-1253/

Мы потратили 320 тысяч рублей ради Nvlink для нейросетей. Но был ли в этом смысл?

akaAzazello Nov 25 2024 at 13:23

Мало влияет. Веса сетки преварительно загружаются на ноды (вот тут будет заметна скорость PCIE x1) - а дальше между ними гоняется лишь KV-cache (который зависит от настроек) + команды исполнения - так что если не фанатсвовать - его размер будет небольшой - и траффик будет на уровне десятков мегабайт в секунду(зависит от железа и сетки). Но сильно влияет латентность - вот тут райзер может тоже повлиять.

У llama.cpp (для которой упомянутая тут olama является лишь обёрткой) есть даже режим RPC(Remote Procedure Call), позволяющий гонять её по сети уровня 1Gb/s Ethernet, разнося GPU по нескольким ПК.

Мы потратили 320 тысяч рублей ради Nvlink для нейросетей. Но был ли в этом смысл?

akaAzazello Nov 25 2024 at 12:52

Написал пару комментариев чуть выше - если кратко - то NVLink+Quadro и не тестировался вовсе. Корректные цифры для такой системы из 2х А5000 для генерации кода (на модели Llama-3.1-70B_Q4_K_M, которая лежит в основе мультимодальной Llama-3.2-90В) должны быть сильно больше 10 токенов в секунду (а не 3.68 токенов в секунду, как тут).

По моим оценкам, корректно настроенная система выдаст в районе 15-17 токенов.

Мы потратили 320 тысяч рублей ради Nvlink для нейросетей. Но был ли в этом смысл?

akaAzazello Nov 25 2024 at 12:02

>>Для наглядности теста нами была выбрана последняя языковая модель LLaMA 3.2 на 90 миллиардов параметров.

Эта модель для анализа картинок+текста. Для генерации текста/кода она соответсвует LLama 3.1 70B - разница в 20 млрд параметров как раз и относится к картинкам и вполне возможно, что всё-равно у вас загружается и бесполезно висит в видеопамяти(нужно смотреть по логам).

Мета зря для одной и той же модели использует индексы 3.1 и 3.2 - и это многих вводит в заблуждение

>>В наших тестах мы используем версию модели с 4-битной квантизацией. Такой выбор не случаен:

Добавлю из личного опыта - для генерации кода подходит квантизация минимум Q6_K, а лучше Q8_0. Всё, что ниже - может начать давать сильно отличающийся от оригинальной модели результат. Причём это зависит от вашего запроса - на чём-то простом результат будет корректный , а на чём-то сложном уже будет что-то совсем не то .

Мы потратили 320 тысяч рублей ради Nvlink для нейросетей. Но был ли в этом смысл?

akaAzazello Nov 25 2024 at 11:40

Непонятен выбор ollama - написанной на go обёртки вокург llama.cpp, которая вносит к тому же дополнительное(хоть и небольшое) потребление видеопамяти

Если хотите потестить производительность - возьмите llama.cpp, соберите конкретно под ваше железо, воспользуйтесь встроенным llama-bench или llama-cli. Поиграйтесь с параметрами -ngl (number of layers to store in VRA) для каждого CUDA устройтва.

>>Мониторинг отображал картину которая больше походила на то, что по какой-то причине в один момент времени была в большей степени загружена либо одна, либо другая видеокарта, хотя иногда нагрузка и была поровну.

Абсолютно нормальное поведение для LLM сети на нескольких отдельных нодах(что cuda, что cpu, что через сеть Ethernet). Собственно, вопрос - почему у вас Квадры отображаются как 2 отдельных устройства, а не одно единое на 48ГБ VRAM? (в этом же и смысл NV-link, а не в скорости)

Разработчики выпустили нейросеть Unique3D для генерации трёхмерных моделей

akaAzazello Jun 11 2024 at 23:45

Хотя бы потому, что очки - это 3 модели - центральная часть и 2 дужки.

Ну и в целом плохо генераятся модели с большим соотношением между длиной/шириной/высотой

Marantz PMD430: профессиональный кассетный портатив

akaAzazello Jul 22 2022 at 16:04

>>Зато у меня теперь есть запись концерта Live Aid 1985 года: приятно, что это не переиздание, а «тот самый» живой эфир 33-летней давности.

Как и Вудсток ранее - этот концерт изменил мир. Восхищаюсь вашим приобретением!

И славный техно-фетиш вы себе завели!

Стартуем RISCV Sipeed LicheeRV — Nezha CM C906 без официального SDK

akaAzazello Jun 9 2022 at 09:44

Забросили, как я понял ;)

Собрал образ на QEmu c ядром с поддеркой уже RVV 1.0 - потихоньку буду в таком виде развлекаться ;)

Стартуем RISCV Sipeed LicheeRV — Nezha CM C906 без официального SDK

akaAzazello Jun 9 2022 at 09:43

Я решил эту плату не брать - но собрал Debian/Sid image на QEmu 7.0 c ядром 5.18-rc6 c поддержкой уже сразу RVV 1.0 (майское) - о скорости промолчу, но демки, обновлённые до 1.0 идут ;)

Valve показала док-станцию для Steam Deck

akaAzazello Feb 27 2022 at 13:27

Поискал - существуют USB-C мама-папа с магнитным креплением - но текущие вывернуты вбок. Наверняка кто-то выпустит и в более удобном форм-факторе - но в любом случае лишь 1 разьём - это не очень хорошо.

Valve показала док-станцию для Steam Deck

akaAzazello Feb 26 2022 at 13:13

У текущего поколения AMD ещё нет USB4/TB

Valve показала док-станцию для Steam Deck

akaAzazello Feb 26 2022 at 10:55

Жаль, что они изначально о док-станции не думали, не разместив разьем на нижней грани консоли.

Civilization VI прокачает ваш английский: годный инструмент для лексики и словарного запаса

akaAzazello Feb 22 2022 at 16:27

Хотелось бы добавить, что игра через достижение культурной победы подходящими для этого нациями (Греки с амфитеатром или Мария Медичи/Франция) позволяет познакомится с бОльшим количеством великих людей (Great Writer/Artist/Musician) и их произведений, включая прямые цитаты(так и устоявшиеся переводы на английский с других языков).

Реальный Windows. Пишем realtime под окошками

akaAzazello Feb 19 2022 at 14:58

Я возможно, что-то упустил, но у меня никак не складываются цифры - с одной стороны, это потенциальный риск для здоровья человека (и страховые выплаты порядка 1 млн $), с другой суммы порядка 10к$ - это дорого (как за готовое решение, так и за девелоперские маки), использование дешёвого Intel Core со специально отключенным ECC для памяти вместо Xeon/любого AMD и т.д.

Ну и технический вопрос - как вы учитываете, что Windows может перезагрузить GPU драйвер в любой момент?

Valve, Motorola, Framework: все больше компаний поддерживают право на ремонт

akaAzazello Feb 18 2022 at 23:17

Мне кажется, что вы никогда не общались с этими немецкими/австрийскими фермерами, владеющими Нивами. Это ныне альтернатива квадрациклам, только с крышей ;)

Valve объявила о партнерстве с iFixit по продаже запчастей для Steam Deck, iFixit опубликовала полный разбор Steam Deck

akaAzazello Feb 16 2022 at 10:10

iFixit считает, что лучше бы там был модульный порт для зарядки.

Про MicroSD речи и не идёт - только про USB-C(питание). Они хоть и более надёжны, чем microUSB, но точно так же являются первым кандидатом на выход из строя/замену

Samsung приостановила предзаказы на Galaxy Tab S8 из-за популярности планшета

akaAzazello Feb 15 2022 at 09:49

Для тех планшетов, у которых разблокирован загрузчик (тут прпоизводители каждый по своему чудит) - а потом уже по списку популярности с xda для Lineage (указанный выше 4pda в той или иной мере зеркалит на русском, но не для всех устройств).

Ещё важный момент - кроме гугла, все выпускают обновления с длительными задержками (от 6 месяцев до года бывает у самсунга) - Lineage обычно появляется спустя дни/недели после поубликации всех исходников Androida

Присматриваемся к одноплатникам на RISC-V, обзор модуля Sipeed Lichee RV на процессоре Allwinner D1

akaAzazello Feb 12 2022 at 17:34

Несмотря на инсинуации автора, я к тем важным длня него минусам отношения не имею, а вот как ему обьяснить, что статья о плате 3 недели наза была - и все, кому было интересно - там отписались. И плата будет не готова для работы больше, чем поморгать светодиодом, ещё немалое время?

Кроме того автор не упоминает нарушение лицензий в её создании и зачем-то приплетает творение Miguel de Icaza.

Присматриваемся к одноплатникам на RISC-V, обзор модуля Sipeed Lichee RV на процессоре Allwinner D1

akaAzazello Feb 12 2022 at 17:24

just in case - На Хабре была статья 3 недели назад об этой плате https://habr.com/ru/post/646655/ - написанная не переводчиком. со всеми её проблемами. и автор, и я уже знаем чуть больше

1

2 3 ...