Да, mixtral и хорошие инструкт модели действительно хорошо работают на русском, не думаю что вихрь прям необходим, он существует и он в теории полезнее чем mistral 7b ориг. Не то чтобы я претендую на что то.
Сам пользуюсь для обучения и инференса моделей. Немного не по теме хабра, но спасибо вам ребята за ваш сервис. Если добавите возможность спотовых инстансов для докера - вообще огонь будет.
А вот со второй частью очень согласны. Нужны финансовые цели (в идеале, конечно, жизненные, но этот идеал пока отложим как временно недостижимый) и нужен рост заработка. Потому что одним только рациональным расходованием средств, то есть разумной экономией, можно повысить благосостояние. Но только до определенного уровня, который все равно быстро упрется в размер заработка.
В то же время уметь распоряжаться имеющейся суммой – все равно важно, вне зависимости от размера заработка. Потому что низкая финансовая грамотность в сочетании с высоким доходом – например, из-за высокой проф. квалификации – быстрее приведет к росту расходов, чем к росту прибыли. По нашим, по крайней мере, оценкам и опыту.
При очень больших временных и вычислительных затратах можно и на текущем CLIP+vqgan получать вменяемые картинки. Просто тратить час на правильно подобранный текстовый ввод а потом это генерировать это 10 часов занимая практически целиком одну v100 карточку - не целесообразно. А по поводу текста - полностью с вами согласен, текущее поколение gpt в целом позволяет генерировать неплохие короткие тексты
Модели не учились на них, они лежат как экспериментальные
Привет! https://huggingface.co/docs/accelerate/concept_guides/big_model_inference tensor paralel встроенный в accelerate умеет это решать сильно проще чем deepspeed. к слову тренить так тоже можно!
да, к сожалению метод обучения ломает модель на инфернсе в квантованном виде, stay tuned будут апдейты
Привет, да с tensor parallel в fp16 без проблем, просто это довольно медленно. я использовал 5h100 с runpod
Да, mixtral и хорошие инструкт модели действительно хорошо работают на русском, не думаю что вихрь прям необходим, он существует и он в теории полезнее чем mistral 7b ориг. Не то чтобы я претендую на что то.
да офк, я очень сильно сомневаюсь что хоть одна сетка напишет нормальный технический текст
да загоните в гугл докс и убедитесь что оне не видит эти ошибки, что флудить то
честно? без понятия. если буду писать paper хочу проверить устойчивость разных вариантов + попробовать clip_ать loss
Э, с KL не сходилось, со Slerp лучше сходилось
ну да, текст написал вихрь, еще вопросы?
Отличная работа! А будут маленькие версии выкладываться? 2.7b/6b?
Так то есть simple rockets 2 который хорошо стимулирует кад и целиком копирует ksp(местами значительно лучше)
Сам пользуюсь для обучения и инференса моделей. Немного не по теме хабра, но спасибо вам ребята за ваш сервис. Если добавите возможность спотовых инстансов для докера - вообще огонь будет.
А почему не bert?
Эхх, очень не хватает таблички с затратами по видеопамяти. А будет третья часть про не градиентные методы? CMA/BAYESIAN?
Автор имел ввиду: полностью двунаправленная полагаю, quite в данном случае является редким синонимом. См гугл переводчик)
@
Достаточно.
Спасибо, давно не так не ржал
Иные – а какие именно, на ваш взгляд?
А вот со второй частью очень согласны. Нужны финансовые цели (в идеале, конечно, жизненные, но этот идеал пока отложим как временно недостижимый) и нужен рост заработка. Потому что одним только рациональным расходованием средств, то есть разумной экономией, можно повысить благосостояние. Но только до определенного уровня, который все равно быстро упрется в размер заработка.
В то же время уметь распоряжаться имеющейся суммой – все равно важно, вне зависимости от размера заработка. Потому что низкая финансовая грамотность в сочетании с высоким доходом – например, из-за высокой проф. квалификации – быстрее приведет к росту расходов, чем к росту прибыли. По нашим, по крайней мере, оценкам и опыту.
Спасибо, поправили.
При очень больших временных и вычислительных затратах можно и на текущем CLIP+vqgan получать вменяемые картинки. Просто тратить час на правильно подобранный текстовый ввод а потом это генерировать это 10 часов занимая практически целиком одну v100 карточку - не целесообразно. А по поводу текста - полностью с вами согласен, текущее поколение gpt в целом позволяет генерировать неплохие короткие тексты