Паща о̄лэн, Хабр! (Привет, Хабр!)

На связи Югорский НИИ информационных технологий (ЮНИИИТ). Мы запускаем цикл статей о нашем большом проекте - «Корпус мансийского языка».

Мансийский язык - один из коренных языков народов Севера, находящийся под угрозой ��счезновения. По данным последней переписи, народ манси насчитывает менее 12.308 человек, а говорящих на данном языке еще меньше. Наш проект направлен на сохранение и цифровизацию этого языка с использованием современных технологий машинного обучения.

Работы ведутся над множеством моделей машинного обучения: нейронный переводчик (NMT), система распознавания (STT) и синтеза речи (TTS), модель распознавания мансийских символов (OCR), ну и конечно же большая языковая модель способная общаться на мансийском языке (LLM).

Мы планируем рассказать о каждой разработанной модели в отдельной статье, и, как вы уже поняли из названия, эта публикация посвящена нейронному переводчику с русского на мансийский язык и обратно.

Что расскажем:

●       Как собирали и размечали обучающие данные;

●       Какие модели и подходы тестировали;

●       Каких результатов удалось достичь.

Итак, давайте пойдем по порядку.

Как собирали и размечали обучающие данные?

Первая и самая сложная задача при создании нейронного переводчика (как, впрочем, и в любой другой ML-задаче) - найти качественные данные. Для обучения NMT требуются параллельные тексты на двух языках. Если для популярных языковых пар доступны миллионы параллельных предложений, то для мансийского языка готовых корпусов нужного объема просто не существует.

Единственное решение - создавать датасет с нуля, привлекая носителей языка и профессиональных переводчиков.

В основу нашего будущего корпуса легли:

●       Архивы газеты на мансийском языке «Лӯима̄ Сэ̄рипос». На данный момент это единственный современный, актуальный источник мансийского языка.

●     Сборники традиционного фольклора (сказки, песни, предания).

●     Корпус предложений на русском языке, который представил Яндекс.

Также стоит упомянуть что мансийский язык представлен несколькими диалектами. Для обеспечения консистентности корпуса мы выбрали северный диалект это наиболее распространенный и сохранившийся вариант, используемый в современной письменности. Это осознанное решение, основанное на инженерном принципе «solve one problem first». Попытка одновременно охватить все диалекты привела бы к распылению и без того ограниченных данных, противоречивым обучающим сигналам и путанице модели. Лучше создать качественную систему для одного диалекта, а затем масштабировать подход на другие варианты.

Разработка инструмента разметки

Одна из самых важных задач - правильно выстроить процесс разметки данных. Проанализировав существующие open-source решения, мы пришли к выводу, что ни одно из них не подходит для специфики нашей задачи. Основные проблемы: избыточная функциональность, сложный интерфейс и отсутствие наличия двухэтапной проверки.

Решение - разработать собственный инструмент с тремя ключевыми требованиями:

К нему были три ключевых требования:

  • Простой и интуитивно понятный интерфейс. Наши разметчики - носители языка, многие из которых не имеют большого опыта работы со сложным ПО. Система не должна была отпугивать их сложностью.

  • Наличие системы отчетности. Нам было необходимо отслеживать прогресс, контролировать качество и вести учёт работы исполнителей, для дальнейшей оплаты труда.

  • Реализация двухэтапной проверки. Каждый перевод должен был проходить обязательную проверку Экспертом, чтобы повысить качество наших данных (на рис. 1)

Рисунок 1. Схема формирования корпуса параллельных предложений
Рисунок 1. Схема формирования корпуса параллельных предложений

Переводчик - носитель мансийского языка, основной участник проекта. Выполняет непосредственный перевод текстов с русского на мансийский язык или проверяет/корректирует существующие переводы на мансийском.

Эксперт - профессиональный лингвист, редактор газеты «Лӯима̄ Сэ̄рипос» или наиболее опытный носитель языка с филологическим образованием. Отвечает за финальный контроль качества переводов.

Шаг 1: Работа Переводчика

  • Процесс перевода:Переводчик видит перед собой мансийскую фразу и поле для ввода русского перевода.

  • Возможность пропуска: Если фраза сложная, вырвана из контекста или переводчик не уверен в ее значении, он может нажать «Пропустить». Это важная функция: она не блокирует работу и отправляет сложное предложение в конец общей очереди, чтобы позже его мог взять другой исполнитель или просто остаться в конце.

  • Отправка на проверку: Готовый перевод отправляется на следующий этап - к экспертам.

Шаг 2: Экспертная проверка

Этот этап - наше главное средство для обеспечения качества корпуса.

У эксперта есть три варианта действий:

  • Принять: Если перевод точен и корректен.

  • Исправить и принять: Если в переводе есть незначительные опечатки и стилистические шероховатости, эксперт может сам внести правки и утвердить пару.

  • Отклонить: Если перевод неверный или искажает смысл, эксперт возвращает его на доработку автору, оставляя комментарий. Это создает обратную связь и помогает переводчикам учиться на своих ошибках.

Итоги первого этапа:

Благодаря такому двухэтапному подходу с системой анонимной проверки качества мы собрали параллельный корпус, который стал первым масштабным проектом подобного рода для мансийского языка. На данный момент он насчитывает более 300 тысяч параллельных предложений.

Разработанную систему разметки мы готовы предоставить другим проектам по сохранению малоресурсных языков. В ходе работы мы заметили, что многие исследовательские группы создают собственные инструменты «с нуля». Наша цель - избавить коллег от необходимости “изобретать велосипед” и предложить готовое, проверенное на практике решение. Если вашему проекту нужен инструмент для разметки параллельных текстов - свяжитесь с нами.

Как мы готовили носителей языка к работе?

Организация работы с носителями языка требует особого внимания к деталям. Мы провели подготовку переводчиков, которая включала:

  • Установка и настройка специальных клавиатур с наклейками для мансийских символов. Это критически важно для комфортной работы и исключения технических барьеров.

  • Установка раскладок клавиатур на устройствах переводчиков и экспертов под Windows и Android (https://cloud.uriit.ru/s/MWo10yvg1a3OmtE).

  • Провели очные и дистанционные обучающие сессии, где показали все функции инструмента разметки.

  • Записали серию обучающих видео, к которым переводчики могут вернуться в любой момент при возникновении вопросов.

Подводные камни реальных данных: что пошло не так?

Несмотря на нашу двухэтапную систему проверки, ни один реальный датасет не бывает идеальным. В процессе работы мы столкнулись с рядом системных проблем, о которых важно рассказать - как для понимания контекста наших результатов, так и для помощи коллегам, работающим с похожими задачами.

  • Вариативность написания долгих гласных. Одна и та же долгая гласная может быть несколькими способами, например: кириллическая буква + макрон (о̄), латинский символ (ō). Для нейросети это два разных токена, хотя семантически они близки и не должны быть особой проблемой, но все равно лучше унифицировать.

  • Перепутанные языки. Человеческий фактор: иногда в ячейку для мансийского текста попадал русский, и наоборот.

  • Аномально длинные переводы. Редко встречались пары, где перевод значительно длиннее исходного текста.

  • Слова, написанные через пробел. В текстах газеты «Лӯима̄ Сэ̄рипос». иногда встречаются слова, написанные через пробел (например: с л о в о). Токенизатор модели воспринимает каждую букву как отдельное слово, что может в дальнейшем ухудшить токенизацию данных текстов.

  • Ошибки при переводе на русский язык. В переводах с мансийского на русский встречаются грамматические, орфографические ошибки и неестественный порядок слов.

  • Проблемы со внешним корпусом. Корпус текстов от Яндекса оказался малопригоден: тематика и стилистика многих материалов не соответствовали культурному контексту мансийского языка. Разметчики отметили сложность адаптации текстов, что существенно ограничило использование этого источника данных.

Как мы боролись?

Большинство этих проблем решается скриптами предобработки и фильтрации:

  • Приведение символов с долготами к единому стандарту.

  • Определение языка на основе правил, для выявления перепутанных пар.

  • Фильтрация по соотношению длин текстов для отсева аномалий.

  • Фильтрация нестандартных случаев, которые сложно обработать автоматически (например, слова через п р о б е л).

Важно отметить: качественных данных в нашем корпусе значительно больше, чем проблемных случаев. Автоматическая очистка позволила отфильтровать шум и получить достаточно чистый обучающий датасет.

Совет коллегам: оглядываясь назад, мы поняли, что многих проблем можно было избежать. Наш главный урок - внедряйте калибровочные этапы с самого начала.

Что это значит на практике:

  • Перед массовой разметкой проведите пилотный этап на 100-200 предложениях с участием всех переводчиков.

  • Регулярные проверки: После каждых 1000-2000 размеченных пар делайте выборочную перепроверку.

  • Ведите статистику ошибок и выявляйте системные проблемы.

  • На основе найденных проблем дополняйте и улучшайте инструкции для разметчиков.

Какие модели и подходы тестировали?

Прежде чем приступить к экспериментам, мы провели обзор текущих подходов к созданию переводчиков для малоресурсных языков. Основной наиболее эффективный путь для обучения моделей машинного перевода для малоресурсных языков это трансферное обучение (transfer learning) с использованием многоязычных моделей. Вместо обучения с нуля на ограниченном корпусе мы дообучаем модель, которая уже обладает фундаментальными знаниями о структуре и закономерностях сотен языков.

О структуре этого раздела

Детальное описание процесса обучения моделей это отдельная техническая тема. Есть отдельная статья, где описан процесс обучения и технические нюансы. Здесь же мы сосредоточимся на подходах, которые мы тестировали и покажем к каким результатам они привели.

Со статьей можно ознакомиться по ссылке  http://siit.ugatu.su/index.php/journal/article/view/242, а по техническим вопросам можно написать в tg https://t.me/odilzhonf4n или задать вопросы в комментариях.

Направление 1. Классические NMT-модели

На момент начала работы были выбраны два основных кандидата:

  • NLLB-200 (Meta) Проверенная многими исследователями модель для работы с малоресурсными языками. Создана для перевода между 200 языками и многократно доказала свою эффективность в подобных задачах.

  • MADLAD-400 (Google) Альтернатива от Google, которую мы рассматривали для сравнения результатов.

Для данных моделей производилась адаптация токенизатора под мансийский язык. Процесс состоял из следующих шагов:

  1. Анализ исходного словаря. Мы проанализировали токенизатор базовой модели и оценили, сколько токенов требуется для представления одного мансийского слова. В среднем случае слово разбивалось на 2,5 токена, что может быть приемлемым значением.

  2. Дообучение токенизатора. Обновленный токенизатор был дообучен на нашем корпусе мансийских текстов, чтобы научиться правильно сегментировать не только отдельные с��мволы, но и целые слова.

    Важно: Главное правило - добавлять как можно меньше новых токенов. В наших экспериментах модель с большим словарём обучалась значительно хуже, чем с меньшим.

  3. Ручная чистка словаря. После дообучения в словаре появились «мусорные» токены. Мы вручную удалили:

  • Токены, содержащие знаки препинания (например, ",слово")

  • Избыточные токены для именованных сущностей (имена, географические названия)

Направление 2: LLM в роли переводчика

Мы наблюдаем что идет постепенный переход от узкоспециализированных NMT-моделей к использованию LLM для задач перевода. К примеру Google начал внедрять LLM в свой переводчик.

Процесс адаптации и дообучения LLM для мансийского языка - это большая тема, заслуживающая отдельной статьи. Она уже готовится и скоро выйдет в рамках нашего цикла. В данной публикации мы покажем лишь метрики качества LLM (google/gemma-3-4b-it) на задаче перевода и сравним их с классическими NMT-моделями.

Каких результатов удалось достичь?

Как мы оценивали качество?

Мы используем два уровня оценки качества:

  • Автоматические метрики (BLEU, chrF) - для быстрого сравнения моделей на этапе экспериментов. Обе метрики оценивают совпадение между машинным и эталонным переводом (0-100, чем выше  тем лучше).

  • Экспертная оценка по адаптированной MQM - для финальной оценки лучшей модели. MQM (Multidimensional Quality Metrics) - многомерная система, где эксперты-лингвисты оценивают точность, грамматику, терминологию, стиль и орфографию перевода. Каждая ошибка получает вес в зависимости от серьёзности.

  • Попарное сравнение (Side-by-Side) - для дальнейшей оценки мы планируем использовать метод SbS, где эксперт выбирает лучший из двух вариантов перевода. Этот подход не требует эталона и лучше выявляет тонкие различия между моделями, когда автоматические метрики уже трудно различить какая модель лучше.

Результаты моделей и подходов на автоматических метриках

Название модели

Количество параллельных предложений

rusmns

mnsrus

BLEU

ChrF

BLEU

ChrF

google/madlad400-3b-mt

50K

12.1

36.6

-

-

google/madlad400-7b-mt-bt

50K

12.6

37.2

-

-

google/madlad400-10b-mt

50K

14.2

39.2

-

-

google/gemma-3-4b-it

-

19.5

48.1

22.1

47.8

facebook/nllb200-3.3B

50K

23.2

52.1

-

-

facebook/nllb200-3.3B

120K

27.3

56.7

25.3

50.3

facebook/nllb200-3.3B

270K

28.2

58.0

26.2

52.1

Результаты экспертной оценки модели  NMT

Первая детальная экспертная оценка была проведена на раннем этапе, когда корпус насчитывал 120 тысяч параллельных пар. Мы использовали адаптированную методику MQM (Multidimensional Quality Metrics), которая позволяет не просто фиксировать наличие ошибок, а классифицировать их по типам и уровням серьёзности.

Направление Русский → Мансийский:

Результаты оценки для этого направления превзошли наши ожидания:

  • ~77% переводов оказались полностью безошибочными.

  • Среди предложений с ошибками подавляющее большинство содержало только незначительные или умеренные недочеты.

  • Только 10,4% всех ошибок были классифицированы как критические (полностью искажающие смысл).

Где модель спотыкается?

Экспертный анализ ошибок по категориям показал, что основные проблемы возникают в:

  • Грамматике (неверное согласование, падежные формы)

  • Лексике (неточный выбор слов)

  • Передаче смысла (искажения и неестественные формулировки)

Направление Мансийский → Русский

Здесь ситуация оказалась менее радужной: более 50% предложений содержали ошибки - заметно хуже, чем в обратном направлении.

Основная масса ошибок связана с орфографией русского языка. Модель в целом правильно понимала смысл мансийского текста и могла передать его по-русски, но совершала множество орфографических ошибок, неправильно писала окончания и допускала опечатки.

Может уже большинство этих проблем решилось обучением на большем объеме корпуса. Но это выясним в наших следующих итерациях по оценке.

Рекомендации по улучшению на основе экспертной оценки

Также были сформулированы рекомендации для дальнейшей работы экспертов и переводчиков:

  • Необходимо выработать единое решение по мансийской орфографии для разрабатываемой модели, которое будет отражать предпочтения сообщества, но также позволять унифицированную представление текста на мансийском языке в корпусе.

  • Необходимо учитывать наличие устойчивых выражений и осуществлять смысловой, а не дословный перевод.

  • Если дословный перевод искажает или затрудняет передачу смысла оригинального предложения, следует сосредоточиться на передаче основного смысла текста.

  • При пополнении корпуса необходимо использовать целые предложения, а не отдельные фрагменты, которые невозможно, верно, интерпретировать без учета контекста.

Появление мансийского в Яндекс.Переводчике

Мы знали о совместной программе Дома народов России и Яндекса по цифровизации языков, которая реализуется при поддержке Федерального агентства по делам национальностей (ФАДН России). Эта инициатива направлена на включение языков коренных народов РФ в цифровое пространство.

Ключевым шагом с нашей стороны стала передача созданного нами параллельного корпуса в ФАДН России.

И сейчас мансийский язык уже доступен в Яндекс.Переводчике

https://translate.yandex.ru/?source_lang=ru&target_lang=mns

Заключение

В этой статье мы рассказали о первом и, пожалуй, самом важном этапе создания нейронного переводчика для мансийского языка - одного из малоресурсных языков народов Севера, находящихся под угрозой исчезновения.

Мы прошли путь от нуля до работающей системы: собрали с нуля корпус из 300 тысяч параллельных предложений, организовали работу десятков носителей языка, обучили модель NMT и добились того, чтобы мансийский язык появился в Яндекс.Переводчике. Это реальный результат, которым мы гордимся.

При этом мы прекрасно понимаем, что  300 тысяч предложений - это лишь начало. Невозможно уместить всё богатство живого языка, его диалекты, фольклор и современную речь в один датасет. Впереди еще много работы: мы продолжим расширять корпус, улучшать качество переводов, тестировать новые подходы с использованием LLM и гибридных архитектур.

Все разработанные нами модели доступны на платформе Этнопортал (https://ethnoportal.admhmao.ru/) - единой экосистеме технологий для мансийского языка ( возможно в дальнейшем появятся и другие языки):

  • Нейронный переводчик (NMT) - русский ⟷ мансийский

  • Синтез речи (TTS) - озвучивание мансийских текстов

  • Языковая модель (LLM) - для генерации и анализа текстов

Этнопортал стал одним из победителей премии Рунета-2025 в номинации «Интернет на родном языке» - это признание значимости проекта для сохранения культурного наследия народов России.

Платформа находится в открытом доступе - попробуйте технологии в действии и поделитесь своими впечатлениями!

Что дальше?

Это первая статья в цикле о проекте «Корпус мансийского языка». В следующих публикациях мы подробно расскажем:

  • Об обучении LLM для мансийского языка

  • О системе распознавания мансийской речи (STT)

  • О синтезе речи (TTS) для мансийского языка

  • О модели распознавания мансийских символов (OCR)

Понравилось? Поставьте лайк! Ваша поддержка показывает, что тема сохранения малоресурсных языков интересна сообществу, и мотивирует нас делиться опытом.

Подписывайтесь! Не пропустите следующие статьи цикла!

Йильпи та̄л о̄вылтахтын кастыл пуссын янытлыянӯв! С наступающим Новым годом всех поздравляем!