Как стать автором
Обновить

SberDevices представила ИИ-сервис «Генеративная проверка орфографии»

Время на прочтение2 мин
Количество просмотров2.8K

Партнёр «Сбера» компания SberDevices представила ИИ-сервис под названием «Генеративная проверка орфографии», который умеет работать с текстами на русском языке и предназначен для корпоративного использования в копирайтинге, редактуре, при создании маркетинговых и рекламных материалов,

Перед командой разработчиков стояла задача изучить и решить проблемы корректуры правописания с помощью генеративных моделей. Результатом стала разработанная методология генеративной коррекции орфографии для русского языка, которая показывает качество уровня SOTA на задаче проверки орфографии. По итогам работы выпущены: библиотека SAGE с открытым исходным кодом (под лицензией MIT), семейство предобученных генеративных моделей (ruM2M100-1.2B, ruM2M100-418M, FredT5-large-spell, T5-large-spell) для корректуры правописания на русском и английском языках и хаб с размеченными данными для задачи коррекции орфографии в текстах разных доменов.

По утверждению разработчиков, на данный момент представленный инструмент опережает по качеству открытые решения для русского языка и проприетарные модели конкурентов.

«Существенный прирост в метриках относительно других решений является следствием разработанной методологии. Было предложено два метода аугментации ошибок для воспроизведения естественных человеческих опечаток и орфографических ошибок в текстах. С помощью этих модулей был создан корпус текстов с ошибками (около 7 ГБ), на котором обучались генеративные модели M2M100 и FredT5-large. Второй этап заключался в дообучении моделей на комбинации собранных параллельных датасетов для исправления орфографии. Лучшая конфигурация полученного решения представлена в виде AI-сервиса на платформе ML Space», — уточнили в SberDevices.

Подробная техническая информация про проект SAGE коррекции орфографии с помощью языковых моделей предоставлена в этой публикации на Хабре от SberDevices.

Согласно описанию ИИ-сервиса «Генеративная проверка орфографии», модель генеративной проверки орфографии переписывает текст без ошибок, не исправляя при этом там, где этого не требуется, сленг, особенности диалектов, сокращения и аббревиатуры. В модели используется система «Опечаточника», обученная на различных датасетах (с человеческими и синтетически сгенерированными ошибками), а также поддерживается консистентный перенос стиля и добавлена устойчивость к текстам из разных источников.

Текущие ограничения проекта: текст длиной до 1000 символов, пунктуационные ошибки не исправляются (пунктуация остаётся авторской), поддерживается только русский язык.

«Сервис развивается, в нём запланированы улучшения, включая поддержку пунктуации и форматирования, а также работу с несколькими языками. Постепенно мы будем внедрять другие, отличные от русского, языки, включая европейские языки, языки СНГ, а также малые языки России», — подытожили в SberDevices.

В компании уточнили, что сервис «Генеративная проверка орфографии» является проприетарной разработкой, а для его корпоративного использования необходимо заключить договор с ML Space/Cloud.ru, для частного тестирования сервиса необходима регистрация на платформе ML Space.

Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
Всего голосов 4: ↑4 и ↓0+4
Комментарии13

Другие новости

Истории

Работа

Data Scientist
76 вакансий

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
11 сентября
Митап по BigData от Честного ЗНАКа
Санкт-ПетербургОнлайн
14 сентября
Конференция Practical ML Conf
МоскваОнлайн
19 сентября
CDI Conf 2024
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
25 сентября
Конференция Yandex Scale 2024
МоскваОнлайн
28 – 29 сентября
Конференция E-CODE
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн