Pull to refresh

Comments 12

Круто конечно, но хотелось бы пощупать, чтобы убедиться в этом самостоятельно.

Посмотрел файлы, там нет модели вообще, но в дискуссии обещают в конце марта.

Спасибо, что напомнили, круто

Если удалось вместиться в 1,7 миллиарда параметров, при этом качество как рекламируется - это очень круто. В 100 раз компактнее 175-миллиардной ChatGPT. Можно ли запустить вашу сеть на отдельном компьютере с видеокартой NVidia?

Насколько я понимаю, сравнивать с ChatGPT некорректно - эта модель не генерирует текст ответа на вопросы, она ищет внутренние логические связи в тексте (или я ошибаюсь?)...

Сеть T5 также может понимать и генерировать текст. Но у меня больше был вопрос о физической возможности использования, не обучения, такой сети на обычном компьютере.

К примеру, про LLaMA-13B (13 млрд параметров) пишут, что может запускаться на машине с одним ускорителем A100 и обходится в несколько долларов за час эксплуатации на облачных платформах. А тут 1.7 млрд., и заявлено отличное качество для русского языка.

Да, верно. FRED-T5 это в первую очередь модель для файнтюнов на таски. Если у вас пайплан выстроен на ruT5, то можно просто подменить на FRED-T5 и получить выше метрики.

если посмотреть на лидерборд, то видно, что по каким-то таскам она отстает от своих конкурентов. Не думаю, что в целом разница на деле будет существенной по сравнению с другими моделями из русского лидерборда. Но название новости громкое, это да - могёте, так сказать, chatgpt с бингом в обнимку напряглись.

На решение Golden Transformer v2.0 не следует ориентироваться, когда сравниваете FRED-T5, ибо в нем использовались сторонние данные, перевод сета и модели для английского языка. Правильно смотреть на строки, где в качестве трейна использовался только сет с RSG и одна модель.

Sign up to leave a comment.