Обновить
4K+
6
Югорский НИИ информационных технологий@Uriit

Пользователь

4
Рейтинг
4
Подписчики
Отправить сообщение

Лес под прицелом нейросетей: сравниваем модели для выявления рубок со спутника

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели5.8K

Ханты-Мансийский автономный округ (ХМАО) – это не только 50% российской нефти, но и 530 тыс. кв. км лесов. Развитие инфраструктуры месторождений и интенсивные заготовки требуют жесткого контроля вырубок. С 2014 года здесь ведут мониторинг по снимкам со спутников, собрав базу из 15000 записей, включающих информацию о выявленных лесных рубках, но есть проблема: ручное дешифрирование происходит слишком долго и дорого.

Читать далее

Корпус мансийского языка часть 1. Модель нейронного машинного перевода

Время на прочтение11 мин
Охват и читатели4.7K

Паща о̄лэн, Хабр! (Привет, Хабр!)

На связи Югорский НИИ информационных технологий (ЮНИИИТ). Мы запускаем цикл статей о нашем большом проекте - «Корпус мансийского языка».

Мансийский язык - один из коренных языков народов Севера, находящийся под угрозой исчезновения. По данным последней переписи, народ манси насчитывает менее 12.308 человек, а говорящих на данном языке еще меньше. Наш проект направлен на сохранение и цифровизацию этого языка с использованием современных технологий машинного обучения.

Работы ведутся над множеством моделей машинного обучения: нейронный переводчик (NMT), система распознавания (STT) и синтеза речи (TTS), модель распознавания мансийских символов (OCR), ну и конечно же большая языковая модель способная общаться на мансийском языке (LLM).

Мы планируем рассказать о каждой разработанной модели в отдельной статье, и, как вы уже поняли из названия, эта публикация посвящена нейронному переводчику с русского на мансийский язык и обратно.

Что расскажем:

●       Как собирали и размечали обучающие данные;

●       Какие модели и подходы тестировали;

●       Каких результатов удалось достичь.

Итак, давайте пойдем по порядку.

Как собирали и размечали обучающие данные?

Первая и самая сложная задача при создании нейронного переводчика (как, впрочем, и в любой другой ML-задаче) - найти качественные данные. Для обучения NMT требуются параллельные тексты на двух языках. Если для популярных языковых пар доступны миллионы параллельных предложений, то для мансийского языка готовых корпусов нужного объема просто не существует.

Читать далее

Как ИИ-скрипт парализовал ИТ-инфраструктуру

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели9K

Привет, Хабр! Меня зовут Александр, я работаю в Региональном центре кибербезопасности ХМАО-Югры на базе АУ «Югорский НИИ информационных технологий», проще говоря – SOC. Мы занимаемся обеспечением информационной безопасности в органах государственной власти, органах местного самоуправления, медицинских организациях на территории ХМАО-Югры. В качестве первой статьи я выбрал кейс ИБ, который не так давно произошел в ИТ-инфраструктуре нашего Абонента (статья публикуется с согласия Абонента). Моя история о том, как инструменты с ИИ могут стать причиной выхода из строя ИТ-инфраструктуры. Надеюсь, наш опыт поможет другим избежать таких ситуаций в будущем.

Читать далее

Информация

В рейтинге
1 199-й
Зарегистрирован
Активность

Специализация

Фулстек разработчик, Специалист по информационной безопасности
Ведущий
Git
SQL
Python
PostgreSQL
Docker
Linux
Java
Базы данных
Apache Kafka
Высоконагруженные системы