Обновить
8K+
15
Виталий@Byurrer

DevOps, разработчик

15
Рейтинг
13
Подписчики
Отправить сообщение

А какие цены?

За эту же цену можно взять больше памяти на RTX 3090. Или есть где-то цены ниже?)

Эта статья должна тебе помочь понять как более эффективно запускать большие модели на твоем железе: https://habr.com/ru/articles/961478/

Даже не x4, а x1. Но это не мешает инференсу, потому что –split-mode layer

Значительно умнее, как минимум она содержит в 6 раз больше информации внутри себя. Это как словарный запас у человека, чем больше тем интереснее речь.

Один подписчик с тг приходил за настройкой сервера на Threadripper. Мы протестировали и оказалось что gpt-oss-120b выдает скорость 20т/с на CPU, а при задействоании 48гб VRAM все 40т/с. Мне самому стало интересно я купил себе Threadripper для тестов, но еще не добрался.

Какие модели порекомендуете взамен gpt-oss-120b? Желательно чтобы в 72гб видеопамяти умещались.

Я тестировал glm-4.7-flash но она на первом же промпте (речь была про формулы prometheus) проиграла, а gpt-oss-120b на тот же самый промпт выдала верный результат. Хотя в размышлениях glm-4.7-flash более активна чем gpt-oss-120b.

Дипсики дистилированные тоже сходу проигрывали на мои запросы из рабочих задач.

Вся переферия через DMI идет со скоростью PCI 3.0 x4. Сколько нужно пропускной способности чтобы не гробить преимущества карт?

Не шумит и не печка, там же реобас стоит, которым можно регулировать скорость вращения. Один раз выставил нужный чтобы обдувал и не громко.

Да, для коротких чатов вполне, чем длинее чаты тем медленнее, причем скорость не линейна и отражается на разных показателях, как на скорости инференса, так и на скорости обработки промпта до первого выходного токена.

Растет время обработки промпта, сейчас протестировал на 5к забитом контексте, прям сильно долго обрабатывался промпт, 2 минуты до первого выходного токена. А скорость генерации ответа упала с 12 до 10 токенов на Lenovo Thinkbook 14+. То есть скорость инференса все-таки не так катастрофично падает как время до первого токена.

Все 3 моих ноутбука покупал примерно за 70к.

RTX 3090 TI от KFA2 взял за 67к, скорость генерации ответа ~130t/s, во время инференса потребляет около 350ватт, в простое ~20ватт. Пока только такие сырые цифры, экономическую эффективность не считал.

Спасибо, возьму на заметку)

Почитал про роли, не понял как это может упростить задачу, это же почти те же привилегии, можете подсказать?

У нас может быть пачка юзеров созданных для отдельных таблиц в разных базах данных.

Спасибо за отзыв)

Забыл упомянуть что на том продовом сервере уже диск никак не расширить без длительного даундайма самого сервера. Думали разные схемы, эта показалась самой дешевой.

А по стоимости профита, имхо, это нужно было сделать, чтобы снизить уровень энтропии. Диски можно бесконечно наращивать при должной организации инфраструктуры, но зачем если можно поддерживать порядок в данных?) Но это мое видение как инженера, а не бизнеса.

А просто взять и отобрать у учётной записи привилегию чтения из таблицы - не?

Не, учетных записей слишком много, показалось проще так как сделали.

Ну вообще-то ...

Ну так то да)

Почитал про нормализацию. На сколько я понял это что-то типа интенсивного метода сокращения данных, когда мы детально анализируем и возможно как-то переделываем данные.

Мы решили пойти экстенсивным путем и удалить ненужные, тем более что определить их дешево, а проверить их ненужность просто.

Нормализация обошлась бы дорого, так как потребовала больше специалистов для анализа и выполнения работ, это было бы очень сложно продать.

Пока не доводилось работать с gitea, возможно позже рассмотрю.

Да) Контора соскамилась и я пока ушел из преподавания.

Нет, то была социальная программа для некоторых слоев населения, им до чемпионатов далековато)

Я как-то работал преподавателем по системному администрированию и хотел чтобы студенты практиковались в удаленном обслуживании серверов, взял блейд на 8 плат)

1

Информация

В рейтинге
573-й
Откуда
Россия
Дата рождения
Зарегистрирован
Активность