Как стать автором
Обновить

Комментарии 28

ЗакрепленныеЗакреплённые комментарии

Так сказать из за спортивного интереса и в ответ на статью где за 6000$ собрали сервер по картинкам в интернете и запустили на нем модель :)

Что было под рукой, на том и запустил :)
Специально готовить сервер к тому что небудет в эксплуатации по моему глупо? Учитывая что результат заведомо известный.
Статья была пару дней в песочнице

Пойду посмотрю не завалялся у меня случаем в кладовке лишний Intel Xeon Gold 6226R, да тоже может разверну какую нейросеть

Зачем виртуализация то? вы отняли у себя до 35% производительности в самом нужном месте - в числодробилках. Настоятельно рекомендую повторить тест на bare metall. Так же настоятельно рекомендую поиграть с настройками количества потоков (cpu thread pool), llama.cpp работает лучше, если либо гипертреадинг отключен либо количество потоков совпадает с количеством физических ядер.

Буквально вчера была аналогичная статья https://habr.com/ru/articles/879846/ с отключением гипертрейдинга и llama.cpp, ускорение, конечно, есть, но дальше единиц токенов генерации без GPU как будто все равно не уедешь.

На паре EPYC с DDR5 4-5 т/с можно получить, но стоимость будет существенно выше, но дешевле чем на ускорителях.

На досуге считал, мать с $1,5 - 2к, cpu 2 x $1500, ram 64gb ~ $300 за штуку для 768 - $3600. Итого примерно $10к. Можно взять cpu подешевле, но это так себе идея. И памяти конечно нужно не 768, а с запасом хотя бы 1ТБ

Получается, миниСуперПК от нВидиа Project Digits за три килобакса выгоднее, чем самому собирать?

Совершенно непонятно какая там будет реальная производительность этого GB10 Пока не будет реальных тестов, смысла нет, что то предполагать. Производительность указана только для FP4, а фраза до 1 петафлопс, предполагает ооочень широкий диапазон. И там всего 128 гб памяти.

пойди к соседу майнеру, возми пачку ригов с видеокартами, это проще :D

Вопрос стоит ли? думаю даже увелечение скорости памяти в два раза (с 180GB/s до 360GB/s а два сокета по 4 кана выдадут столько?>) сильно не увеличит производительность.

У меня во время теста полность загружался один проц, думаю будеть упор в цпу или рядом

Два эпика по 12 каналов сильно больше выдают с DDR5, чуть меньше 3 тб/с, думаю по факту будет 10+ токенов.

Кстати откуда скорость 180GB/s? В реальности 180 GB/s будет на 12 каналах.

ну вот тест с одного из тех серверов (физически другой сервер, но модель одна и таже) где я в виртуалке запустил модель.
Только небольшое "но", этот тест сделан из под livecd без каких либо драйверов...
да 12 каналов, по 6 каналов на процессор (я почемуто досих пор считал чтоу меня на голадх по 4 канала :D скриншоты делал, а не вчитывался..)
Если на эпиках по 12 каналов, там колько под терабайт в секунду будет?
На скриншоте у вас вроде 3 гига, а пишите под 3 терабайта. Если действительно 3 ТБ/с, то это уже впринципе наверное ошутимо модель работать будет, дело в том хватит ли процессора.

Кстати, вы правы, тест какую-то чушь показывает, скрин был честно украден из статьи, также как и ваш)). Сейчас посчитал, скорость приблизительно должна быть 1,5 ТБ/с

При 180 ГБ/с у автора той статьи был один токен/с если правильно помню, то на паре эпиков (если справедлива линейная экстраполяция) получится 8 - 10 токенов/с

Не мой выше скрин это мой скрин только с другого сервера (в этом же кластере), и сделанный вчера, а не в момент написания статьи.
И в статье все скрины мои, честно сделанные в момент написания статьи

тут виртуализация по факту не так много сьедает, разница с карточками колоссальная так что впринципе оно того не стоит..

Так сказать из за спортивного интереса и в ответ на статью где за 6000$ собрали сервер по картинкам в интернете и запустили на нем модель :)

Что было под рукой, на том и запустил :)
Специально готовить сервер к тому что небудет в эксплуатации по моему глупо? Учитывая что результат заведомо известный.
Статья была пару дней в песочнице

Прикольно) Мы от Бреста ушли в пользу Альт виртуализации. Недавно тоже продавил закупку кучи плашек памяти для нод, которые вот-вот только разворачиваются. В теории, можно было бы тоже такую хреньку замутить, но на моей работе этого не поймут, так что был рад почитать вашу статью) Сам пользуюсь qwen (не локальной конечно же!), мне нравится, часто помогает

потому что стоимость решения на пару порядков ниже может получиться (конечно не про вариант из статьи),.. а потеря производительности упадет на порядок.

потомучто можно, а так да, бессмысленно.
еще раз статью побудило написать другая статья где автор толком ничего не запустил, но посчитал бюджет :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории