Статьи / Профиль Uriit / Хабр

Югорский НИИ информационных технологий@Uriit

Пользователь

Рейтинг

Подписчики

ПрофильСтатьи3ПостыНовостиКомментарии

Uriit 18 фев в 10:13

Лес под прицелом нейросетей: сравниваем модели для выявления рубок со спутника

Средний

6 мин

5.8K

Машинное обучение * Геоинформационные сервисы * Искусственный интеллектBig Data * Обработка изображений *

Кейс

Ханты-Мансийский автономный округ (ХМАО) – это не только 50% российской нефти, но и 530 тыс. кв. км лесов. Развитие инфраструктуры месторождений и интенсивные заготовки требуют жесткого контроля вырубок. С 2014 года здесь ведут мониторинг по снимкам со спутников, собрав базу из 15000 записей, включающих информацию о выявленных лесных рубках, но есть проблема: ручное дешифрирование происходит слишком долго и дорого.

Uriit 29 дек 2025 в 10:44

Корпус мансийского языка часть 1. Модель нейронного машинного перевода

11 мин

4.7K

Искусственный интеллектМашинное обучение *

Обзор

Паща о̄лэн, Хабр! (Привет, Хабр!)

На связи Югорский НИИ информационных технологий (ЮНИИИТ). Мы запускаем цикл статей о нашем большом проекте - «Корпус мансийского языка».

Мансийский язык - один из коренных языков народов Севера, находящийся под угрозой исчезновения. По данным последней переписи, народ манси насчитывает менее 12.308 человек, а говорящих на данном языке еще меньше. Наш проект направлен на сохранение и цифровизацию этого языка с использованием современных технологий машинного обучения.

Работы ведутся над множеством моделей машинного обучения: нейронный переводчик (NMT), система распознавания (STT) и синтеза речи (TTS), модель распознавания мансийских символов (OCR), ну и конечно же большая языковая модель способная общаться на мансийском языке (LLM).

Мы планируем рассказать о каждой разработанной модели в отдельной статье, и, как вы уже поняли из названия, эта публикация посвящена нейронному переводчику с русского на мансийский язык и обратно.

Что расскажем:

● Как собирали и размечали обучающие данные;

● Какие модели и подходы тестировали;

● Каких результатов удалось достичь.

Итак, давайте пойдем по порядку.

Как собирали и размечали обучающие данные?

Первая и самая сложная задача при создании нейронного переводчика (как, впрочем, и в любой другой ML-задаче) - найти качественные данные. Для обучения NMT требуются параллельные тексты на двух языках. Если для популярных языковых пар доступны миллионы параллельных предложений, то для мансийского языка готовых корпусов нужного объема просто не существует.

Uriit 7 дек 2025 в 05:34

Как ИИ-скрипт парализовал ИТ-инфраструктуру

Средний

4 мин

Информационная безопасность * Искусственный интеллект

Из песочницы

Привет, Хабр! Меня зовут Александр, я работаю в Региональном центре кибербезопасности ХМАО-Югры на базе АУ «Югорский НИИ информационных технологий», проще говоря – SOC. Мы занимаемся обеспечением информационной безопасности в органах государственной власти, органах местного самоуправления, медицинских организациях на территории ХМАО-Югры. В качестве первой статьи я выбрал кейс ИБ, который не так давно произошел в ИТ-инфраструктуре нашего Абонента (статья публикуется с согласия Абонента). Моя история о том, как инструменты с ИИ могут стать причиной выхода из строя ИТ-инфраструктуры. Надеюсь, наш опыт поможет другим избежать таких ситуаций в будущем.

Лес под прицелом нейросетей: сравниваем модели для выявления рубок со спутника

Корпус мансийского языка часть 1. Модель нейронного машинного перевода

Как ИИ-скрипт парализовал ИТ-инфраструктуру

Информация

Специализация