Как стать автором
Обновить
12
0

Пользователь

Отправить сообщение

Восстановление знаков пунктуации и заглавных букв — теперь и на длинных текстах

Время на прочтение5 мин
Количество просмотров7.5K

изображение


Open In Colab


После релиза нашей первой модели, расставляющей знаки препинания и большие буквы, было много пожеланий доработать её, чтобы она могла обрабатывать тексты целиком, а не отдельные предложения. Это коллективное пожелание и было осуществлено в нашей новой версии модели.


изображение


В целом, архитектура и датасеты остались прежними. Что изменилось:


  • обучение теперь производилось не на отдельных предложениях, а на нескольких последовательных предложениях (принимаем во внимание, что конструктивное ограничение модели при обучении — 512 токенов на вход, что позволяет свободно подавать ~150 слов на любом из четырех поддерживаемых языков)
  • для ускорения обучения модели сокращение словаря теперь проводилось не только на инференсе, но и на трейне, что позволило увелить размер батча
Читать дальше →
Всего голосов 20: ↑20 и ↓0+20
Комментарии21

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность