Статьи / Профиль NikitaMartynov / Хабр

@NikitaMartynov

Пользователь

Профиль Публикации 2Комментарии 2Закладки

NikitaMartynov 11 апр в 11:02

SAGE v1.1.0: как мы учили генеративный корректор орфографии ошибаться реже, думать быстрее и исправлять пунктуацию

Средний

15 мин

2.3K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*

В октябре прошлого года мы выпустили SAGE — библиотеку для генеративной коррекции орфографии, которая включает в себя семейство предобученных трансформерных моделей, хаб с параллельными вручную размеченными датасетами и два алгоритма текстовой аугментации на основе намеренного искажения правописания.

С момента прошлого релиза мы улучшили качество наших моделей более чем на 10%, добавили правку знаков пунктуации и регистра, провели эксперименты по сжатию и ускорению полученных решений, добавили разметку пунктуации в датасеты и новые метрики в библиотеку, а нашу статью взяли на EACL 2024 в Мальте.

+18

NikitaMartynov 6 окт 2023 в 10:49

SAGE: коррекция орфографии с помощью языковых моделей

Средний

18 мин

9.1K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*

Коррекция правописания является одной из основополагающих задач в области Natural Language Processing (NLP). Достаточно прозаичная формулировка и кажущаяся жёсткой структура орфографической системы скрывают под собой нетривиальные внутриязыковые взаимодействия, являющиеся традиционно сложными для языковых моделей. В этом посте мы расскажем, как решали эту проблему внутри SberDevices, и как это привело к созданию проекта по исследованию задачи коррекции текста, а также решения, опережающего модели OpenAI.

+31

SAGE v1.1.0: как мы учили генеративный корректор орфографии ошибаться реже, думать быстрее и исправлять пунктуацию

SAGE: коррекция орфографии с помощью языковых моделей

Информация

Специализация