Как стать автором
Обновить
18
0
Alex wortega @alexwortega

Roleplay молодого DS

Отправить сообщение

Модели не учились на них, они лежат как экспериментальные

Привет! https://huggingface.co/docs/accelerate/concept_guides/big_model_inference tensor paralel встроенный в accelerate умеет это решать сильно проще чем deepspeed. к слову тренить так тоже можно!

да, к сожалению метод обучения ломает модель на инфернсе в квантованном виде, stay tuned будут апдейты

Привет, да с tensor parallel в fp16 без проблем, просто это довольно медленно. я использовал 5h100 с runpod

Да, mixtral и хорошие инструкт модели действительно хорошо работают на русском, не думаю что вихрь прям необходим, он существует и он в теории полезнее чем mistral 7b ориг. Не то чтобы я претендую на что то.

да офк, я очень сильно сомневаюсь что хоть одна сетка напишет нормальный технический текст

да загоните в гугл докс и убедитесь что оне не видит эти ошибки, что флудить то

честно? без понятия. если буду писать paper хочу проверить устойчивость разных вариантов + попробовать clip_ать loss

Э, с KL не сходилось, со Slerp лучше сходилось

коричневый - slerp, голубой и зеленый - sum, зеленый и фиолетовый - KL
коричневый - slerp, голубой и зеленый - sum, зеленый и фиолетовый - KL

ну да, текст написал вихрь, еще вопросы?

Отличная работа! А будут маленькие версии выкладываться? 2.7b/6b?

Так то есть simple rockets 2 который хорошо стимулирует кад и целиком копирует ksp(местами значительно лучше)

Сам пользуюсь для обучения и инференса моделей. Немного не по теме хабра, но спасибо вам ребята за ваш сервис. Если добавите возможность спотовых инстансов для докера - вообще огонь будет.

Эхх, очень не хватает таблички с затратами по видеопамяти. А будет третья часть про не градиентные методы? CMA/BAYESIAN?

Автор имел ввиду: полностью двунаправленная полагаю, quite в данном случае является редким синонимом. См гугл переводчик)

BERT — достаточно двунаправленная модель.

@

Достаточно.

Спасибо, давно не так не ржал

Иные – а какие именно, на ваш взгляд?

А вот со второй частью очень согласны. Нужны финансовые цели (в идеале, конечно, жизненные, но этот идеал пока отложим как временно недостижимый) и нужен рост заработка. Потому что одним только рациональным расходованием средств, то есть разумной экономией, можно повысить благосостояние. Но только до определенного уровня, который все равно быстро упрется в размер заработка.

В то же время уметь распоряжаться имеющейся суммой – все равно важно, вне зависимости от размера заработка. Потому что низкая финансовая грамотность в сочетании с высоким доходом – например, из-за высокой проф. квалификации – быстрее приведет к росту расходов, чем к росту прибыли. По нашим, по крайней мере, оценкам и опыту.

Спасибо, поправили.

При очень больших временных и вычислительных затратах можно и на текущем CLIP+vqgan получать вменяемые картинки. Просто тратить час на правильно подобранный текстовый ввод а потом это генерировать это 10 часов занимая практически целиком одну v100 карточку - не целесообразно. А по поводу текста - полностью с вами согласен, текущее поколение gpt в целом позволяет генерировать неплохие короткие тексты

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность