Как стать автором
Обновить
9
0

Пользователь

Отправить сообщение

SAGE v1.1.0: как мы учили генеративный корректор орфографии ошибаться реже, думать быстрее и исправлять пунктуацию

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров2.3K

В октябре прошлого года мы выпустили SAGE — библиотеку для генеративной коррекции орфографии, которая включает в себя семейство предобученных трансформерных моделей, хаб с параллельными вручную размеченными датасетами и два алгоритма текстовой аугментации на основе намеренного искажения правописания. 

С момента прошлого релиза мы улучшили качество наших моделей более чем на 10%, добавили правку знаков пунктуации и регистра, провели эксперименты по сжатию и ускорению полученных решений, добавили разметку пунктуации в датасеты и новые метрики в библиотеку, а нашу статью взяли на EACL 2024 в Мальте. 

Читать далее
Всего голосов 15: ↑14 и ↓1+18
Комментарии4

SAGE: коррекция орфографии с помощью языковых моделей

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров9.1K

Коррекция правописания является одной из основополагающих задач в области Natural Language Processing (NLP). Достаточно прозаичная формулировка и кажущаяся жёсткой структура орфографической системы скрывают под собой нетривиальные внутриязыковые взаимодействия, являющиеся традиционно сложными для языковых моделей. В этом посте мы расскажем, как решали эту проблему внутри SberDevices, и как это привело к созданию проекта по исследованию задачи коррекции текста, а также решения, опережающего модели OpenAI.

Читать далее
Всего голосов 31: ↑31 и ↓0+31
Комментарии6

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность

Специализация

ML Engineer