Sber Mar 7 2023 at 17:17

Языковая модель от Сбера лучше других понимает тексты на русском языке

2 min

5.6K

Сбер corporate blogBig Data*Machine learning*Artificial Intelligence

Comments 12

artemev Mar 7 2023 at 17:58

Круто конечно, но хотелось бы пощупать, чтобы убедиться в этом самостоятельно.

zartdinov Mar 7 2023 at 18:30

Они обычно на huggingface выкладывают, возможно, вот модель:

https://huggingface.co/sberbank-ai/FRED-T5-1.7B

artemev Mar 7 2023 at 18:48

Спасибо, но не работает

zartdinov Mar 7 2023 at 18:56

Посмотрел файлы, там нет модели вообще, но в дискуссии обещают в конце марта.

kryvichh Apr 10 2023 at 03:00

Появился чек-поинт. Причём аж два:
https://huggingface.co/ai-forever/FRED-T5-1.7B -- BIN-файл 6.96 GB

https://huggingface.co/ai-forever/FRED-T5-large -- BIN-файл 3.28 GB

zartdinov Apr 11 2023 at 03:43

Спасибо, что напомнили, круто

kryvichh Mar 7 2023 at 21:17

Если удалось вместиться в 1,7 миллиарда параметров, при этом качество как рекламируется - это очень круто. В 100 раз компактнее 175-миллиардной ChatGPT. Можно ли запустить вашу сеть на отдельном компьютере с видеокартой NVidia?

avshkol Mar 8 2023 at 11:00

Насколько я понимаю, сравнивать с ChatGPT некорректно - эта модель не генерирует текст ответа на вопросы, она ищет внутренние логические связи в тексте (или я ошибаюсь?)...

kryvichh Mar 9 2023 at 14:53

Сеть T5 также может понимать и генерировать текст. Но у меня больше был вопрос о физической возможности использования, не обучения, такой сети на обычном компьютере.

К примеру, про LLaMA-13B (13 млрд параметров) пишут, что может запускаться на машине с одним ускорителем A100 и обходится в несколько долларов за час эксплуатации на облачных платформах. А тут 1.7 млрд., и заявлено отличное качество для русского языка.

Dmitry_zm Apr 1 2023 at 14:56

Да, верно. FRED-T5 это в первую очередь модель для файнтюнов на таски. Если у вас пайплан выстроен на ruT5, то можно просто подменить на FRED-T5 и получить выше метрики.

GefKelly Mar 9 2023 at 18:05

если посмотреть на лидерборд, то видно, что по каким-то таскам она отстает от своих конкурентов. Не думаю, что в целом разница на деле будет существенной по сравнению с другими моделями из русского лидерборда. Но название новости громкое, это да - могёте, так сказать, chatgpt с бингом в обнимку напряглись.

Dmitry_zm Apr 1 2023 at 15:02

На решение Golden Transformer v2.0 не следует ориентироваться, когда сравниваете FRED-T5, ибо в нем использовались сторонние данные, перевод сета и модели для английского языка. Правильно смотреть на строки, где в качестве трейна использовался только сет с RSG и одна модель.