Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи.
В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio.
Итак, что же такое Data Studio ?
Data Studio — это инструмент для работы с задачами обработки естественного языка (NLP), который мы используем в основном для улучшения качества перевода текста.
С помощью Data Studio можно обучать модели перевода, настраивать различные параметры для этих тренировок, токенизировать данные, фильтровать их по различным параметрам, собирать метрики, создавать данные для обучения, тестирования и валидации и многое другое.
Общий процесс создания языковой модели для перевода выглядит так:
1) Предобработка данных: этап подготовки данных перед обучением модели.
2) Фильтрация с использованием структурных и семантических фильтров.
3) Сбор общего набора данных: удаление избыточности, равномерное распределение тем и длин, сортировка.
4) Тегирование для классификации данных.
5) Загрузка общего набора данных в Data Studio для проверки.
6) Создание данных для валидации и тестирования модели.
7) Обучение модели.