Pull to refresh
4
8
Югорский НИИ информационных технологий@Uriit

User

Send message

Корпус мансийского языка часть 1. Модель нейронного машинного перевода

Reading time11 min
Reach and readers4.6K

Паща о̄лэн, Хабр! (Привет, Хабр!)

На связи Югорский НИИ информационных технологий (ЮНИИИТ). Мы запускаем цикл статей о нашем большом проекте - «Корпус мансийского языка».

Мансийский язык - один из коренных языков народов Севера, находящийся под угрозой исчезновения. По данным последней переписи, народ манси насчитывает менее 12.308 человек, а говорящих на данном языке еще меньше. Наш проект направлен на сохранение и цифровизацию этого языка с использованием современных технологий машинного обучения.

Работы ведутся над множеством моделей машинного обучения: нейронный переводчик (NMT), система распознавания (STT) и синтеза речи (TTS), модель распознавания мансийских символов (OCR), ну и конечно же большая языковая модель способная общаться на мансийском языке (LLM).

Мы планируем рассказать о каждой разработанной модели в отдельной статье, и, как вы уже поняли из названия, эта публикация посвящена нейронному переводчику с русского на мансийский язык и обратно.

Что расскажем:

●       Как собирали и размечали обучающие данные;

●       Какие модели и подходы тестировали;

●       Каких результатов удалось достичь.

Итак, давайте пойдем по порядку.

Как собирали и размечали обучающие данные?

Первая и самая сложная задача при создании нейронного переводчика (как, впрочем, и в любой другой ML-задаче) - найти качественные данные. Для обучения NMT требуются параллельные тексты на двух языках. Если для популярных языковых пар доступны миллионы параллельных предложений, то для мансийского языка готовых корпусов нужного объема просто не существует.

Читать далее

Как ИИ-скрипт парализовал ИТ-инфраструктуру

Level of difficultyMedium
Reading time4 min
Reach and readers8.9K

Привет, Хабр! Меня зовут Александр, я работаю в Региональном центре кибербезопасности ХМАО-Югры на базе АУ «Югорский НИИ информационных технологий», проще говоря – SOC. Мы занимаемся обеспечением информационной безопасности в органах государственной власти, органах местного самоуправления, медицинских организациях на территории ХМАО-Югры. В качестве первой статьи я выбрал кейс ИБ, который не так давно произошел в ИТ-инфраструктуре нашего Абонента (статья публикуется с согласия Абонента). Моя история о том, как инструменты с ИИ могут стать причиной выхода из строя ИТ-инфраструктуры. Надеюсь, наш опыт поможет другим избежать таких ситуаций в будущем.

Читать далее

Information

Rating
648-th
Registered
Activity

Specialization

Фулстек разработчик, Специалист по информационной безопасности
Ведущий
Git
SQL
Python
PostgreSQL
Docker
Linux
Java
Базы данных
Apache Kafka
Высоконагруженные системы