Pull to refresh
128
6.2
Александр Казанцев @akdengi

Могу писать, могу не писать, могу игры создавать.

Send message

По схемам же - вот такое есть: https://fullstackdeeplearning.com/cloud-gpus/dettmers_recs.png

Тут также можно не соглашаться :)

Официально они для рабочих станций, но и 3090/4090 игровые. ... и A4000/5000/6000 почему-то используют для обучения. Почему бы и нет?

Понятно что сейчас рекомендации A6000 или A100/H100 для больших моделей (официально от Nvidia) и 4080/4090 для S и M моделей (неофициально, но поддержка есть в дровах) и тем более с поддержкой 8-bit Float. Поэтому вопрос будет только в средствах. По мне взять недорогой сервер на A5000, например по цене в два раза меньше, чем на 4090, где по производительности обучения там около 60% разница, а не в два раза для LoRA и небольших датасетов будет оптимальным. И стабильность выше. Люди берут даже 3090 до сих пор для обучения (хотя тут A5000 при текущих ценах надежней будет и одинаково).

С чего вы взяли что они не для обучения? По производительности да, A4000 это 3070 Ti примерно, и сама NVidia именно A4000/5000 преподносила и для машинного обучения (да, это PCI-E, типа рейтрейс, CAD и видео, но по тестам норм и в обучение применяли, где хватало 16+ Гб). А вот наличие той же ECC памяти или необходимости работать пару суток под нагрузкой вам скажется на десктопных картах. Это извечный спор (reddit вам в помощь), что нафига карта в 3-5 раз дороже десктопной, но для чего то они существуют и покупаются? Вот пример бенчмарков на Deep Learn: https://www.exxactcorp.com/blog/Benchmarks/nvidia-rtx-a4000-a5000-and-a6000-comparison-deep-learning-benchmarks-for-tensorflow

Даже в инференсе по тестам та же 4090 на длинных текстах начинает ошибки выдавать в больших моделях (понятно, что которые влазят в 24 гига 4090) гораздо раньше и чаще, чем H100 - хотя карты тоже сравнимы.

Будет сравнение дальше с ценами, мощностью потребляемой и т.п. CPU, GPU разных поколении и типов. Просто сравнивать в MLPerf, данные которого есть массово не интересно, поэтому на модельках смотрим.

Сейчас прогоняю тесты на A4000/5000 4900 H100 Epyc 4-поколения на koboldcpp (хотя можно любой бенчмарк, но тут тоже удобно и окно ответа задать и gpu offload) на иференс с модельками Mixtral и Lllama с разным квантованием и размером.
Starling-LM-10.7B-beta-Q4_K_M.gguf
mixtral-8x7b-instruct-v0.1.Q3_K_M.gguf
llama-2-70b-chat.Q4_K_M.gguf

7.5, 26 и 41 гиг соответственно весят.

единственное что среднюю модельку попробую загнать по слоям полностью в GPU, возьму чуть меньше. Все с максимальный использованием gpu offload.

Еще добавлю свою личную RTX 4060 в сравнимых условиях, так как в теории она по производительности равна A4000 но проигрывает в памяти (8 против 14 гигов)

H100 у нас на EPYC 7451 24 ядерных, 4090 на i9-14900 или на Райзенах, но CPU не буду трогать, но попробую без GPU и на десктопных 8x7b модель.

Все в единую табличку сведем, еще добавлю производительности в том же Automatic1111 c SD XL моделью.

По обучению смотрю, как лучше тест сделать, чтобы сравнение было корректным, если подскажете, буду рад, как и по тестам, что еще хотелось бы сравнить.

Он тоже самое делает (подключает внешние модели или self- host через openapi) и таких там несколько плагинов. Все используют или Mixtral или LLama или микс или через API ChatGPT. Вопрос в удобстве манипуляции моделями и возможность автоматизации со своими запросами и сохранением форматирования.

8x7B модельки тяжелые, только для 4090 с 24 гигами или для 7900 если на GPU. Но вот на CPU теперь уже интересно проверить на AMD Epyc и Intel Xeon + сравнить на этих моделях A4000/5000 4090 и H100 (благо есть такая возможность).

Для той модельки, которая у меня на переводе, с моим процем и памятью на рабочей машине CPU совсем грустно и оптимально именно на видеокарте:

Model: Starling-LM-10.7B-beta-Q5_K_M
MaxCtx: 8192
GenAmount: 100

GPU

ProcessingTime: 19.89s
ProcessingSpeed: 406.92T/s
GenerationTime: 24.04s
GenerationSpeed: 4.16T/s
TotalTime: 43.92s
Coherent: True
Output: 11111

GPU + CPU

ProcessingTime: 28.55s
ProcessingSpeed: 283.39T/s
GenerationTime: 35.78s
GenerationSpeed: 2.80T/s
TotalTime: 64.33s
Coherent: True
Output: 11111

CPU

ProcessingTime: 968.03s
ProcessingSpeed: 8.36T/s
GenerationTime: 36.64s
GenerationSpeed: 2.73T/s
TotalTime: 1004.67s
Coherent: True

Тут возможно еще влияет качество подготовки моделей, но 4060 на 8 Гб 5-6 бит квантизация нормально переваривается, и я уперся только в размер модели и ее объем. LM Studio все-таки не самый оптимизированный вариант. Но задача была показать, что все можно сделать на "раз-два" и на достаточно типичной машине. Я на H100 тестил LLAMA2 на 70B, вот там вещь конечно. Ну и ориентируюсь на рекомендации авторов моделей, а они на 7B или 10.7B рекомендуют использовать Q5-6 M.

По CPU - я тут пытаюсь найти информацию про запуск на многоядерных процессорах типа AMD Epyc 4 поколения нейросеток и нахожу только или научно-исследовательские статьи или отклики про сырой и глючный ROCm. Не подскажете, в какую сторону "копать", так как тема утилизации именно CPU мощностей интересна и судя по тому, что находил, там выигрыш хороший может быть?

Идеален был для поездок. Я с ним в школьные годы и в Питер и в Москву и в другие города катался. Кадров много, фотик компактный.

Есть показатели контроля ФНС компаний и самозанятых, которые триггерили проверки. Где-то два последних года они были следующие:

  • использование работодателем труда самозанятого три и более месяцев подряд.

  • единственный источник дохода».

  • постоянная сумма.

    C 1 марта триггерами для проверок стали:

  • с компанией работают больше 10 самозанятых,

  • средняя выплата самозанятому более 20 000 рублей,

  • средняя продолжительность договора с физлицом более 3 месяцев.

    Все это грозит комиссией о нелегальной занятости для компании и аннулировании чеков (и возврата сумм) для самозанятого. Как я уже написал, кому-то пофиг, а где-то бухглатерия "на дыбы" встает. Ну и ФНС где-то решает зверствовать, а где то у них даже на ИП сил не хватает.

Самозанятый не может работать более 3-х месяцев с одной компанией, там потом ФНС впрягается. Кто-то на это закрывает глаза, но обычно после этого или идешь в штат (если ты нужен на проекте на длительный срок) или переключаешь оплату на ИП.

ГПХ сейчас по отчетности приравнен к штатному работнику и сдавать ЕФС-1 по общим правилам должны все (даже ИП заключившие такой контракт с физлицом), поэтому в любой момент его могут "пересчитать" в трудовой договор с большей вероятностью, чем при работе по договору с ИП (особенно если у последнего есть другие заказчики и поступления доходов). По ИП жены теперь стараемся услуги проводить как "ИП с ИП" или "ИП с самозанятым".

Это уже экзотика, старались упомянуть что массово и на слуху.

Тут вообще проблема со всеми "опенсурсами" :( Все вкусное - за денюжку. Сейчас готовлю тест-обзор разных методов "съезда" с OneDrive, везде какой то затык :(
Начиная от кредов, так как мигрировать профили пользователей не так легко, а поддержка LDAP и прочего как обычно только в Enterprise, до приколов с производительностью всех этих облачных "rsync". У меня у самого там под полтерабайта данных, которые еще местами и расшарены на разных людей и под разными правами, хочу понять что в итоге получится.

Так это один продукт :) Вопрос в функционале, так как таблицы Onlyoffice/Р7 косячит знатно, как и документы :( По моим тестам у этого пакета хуже всего совместимость при переносе в облако.

Р7 продающие бесплатный OnlyOffice тоже вопросы вызывают, хотя типа разрабы одни и те же, а казалось бы и нет :) как и продаваны LO, поменявшие только название. МС в офисных пакетах как Adobe в графике и видео.

Есть идея второй статьи именно про OneDrive и бэкапа с него в свое облако: от простой галочки в Проводнике "Всегда хранить на данном устройстве" до развертывания облачного хранилища на отдельном сервере. Думаю, стоит и seafile упомянуть, спасибо за замечание.

В сравнении с Р7 (который OnlyOffice по факту) на том же Яндекс Диске это мрак и ад, особенно табличный процессор. LO в облачном тоже. В веб-версии, как ни странно, Google рулит, потому что у МС она нещадно тормозит бывает.

Про это и написали. Но надо понимать, что и для чего использовали. Кто то продолжает тот же Teams использовать в ключе его бытности Skype for Business, кто-то как аналог Slack. А opensource часто если хороший, то обычно за это денюжку просят в Enterprise версиях.

Если брать платно-российское (это не реклама, а просто мои бывшие коллеги еще со времен Мандривы/Росы реально что-то делают сами, а не шильдики переклеивают), то ближе всего подобрались в МойОфис и если они, как и хотели осилять бесшовную интеграцию того же Squadus с ЧастныОблаком и Mailion своими, то получат достаточно неплохую замену Office365, особенно для линухи.

У Teams нет полных аналогов (тот же Mastermost это все таки "opensource" Slack и изначально для миграции с него рекомендован. Поэтому надо понять, что было нужно (коммуникации, видеоконфы, файлохранилище для обмена, группировка пользователей и т.п.) и потом строить план переноса.

С облачными хранилищами также - все таки правильное решение это свой NAS с бэкапом и лучше RAID (можно у хостера, можно в ЦОД, можно локально), а к нему уже "веб-морду". У части NAS она своя (и как не странно обычно это переработанный Nexcloud или подобное).

1
23 ...

Information

Rating
728-th
Location
Глазов, Удмуртия, Россия
Date of birth
Registered
Activity