Машинный перевод уже стал привычной частью жизни — от деловой переписки до общения с людьми из других стран. Но за простотой нажатия кнопки «перевести» стоит сложная технология, которая требует постоянного контроля качества.
В компании Lingvanex мы применяем собственный подход к выбору тестовых данных, ориентируясь на максимальную репрезентативность и адаптацию к реальным запросам клиентов. Цель состоит в том, чтобы создавать модели, которые могут точно переводить тексты как с лексической, так и с грамматической точностью, сохраняя контекст и стиль.
В этой статье мы подробнее рассмотрим, как наша команда выбирает тестовые наборы данных и обсудим ограничения существующих стандартов.
Сегментация данных: обучение, валидация и тестирование
Процесс обучения языковой модели машинного перевода начинается с правильного разделения данных на обучающую, валидационную и тестовую выборки. Это помогает избежать переобучения и гарантирует, что модель будет способна обобщать новую информацию, а не просто запоминать примеры.
Обучающая выборка. Мы создаем обучающие корпусы, состоящие из десятков миллионов пар предложений на разных языках, извлеченных из параллельных текстов. Эти данные проходят процедуру очистки: удаляются дубликаты и некорректные переводы. Для предобработки используются инструменты для токенизации, нормализации текста и разметки синтаксической структуры.
Валидационная выборка. Этот набор данных используется для мониторинга процесса обучения. Регулярные проверки на валидационном наборе позволяют оценить качество перевода на промежуточных этапах обучения. Это дает возможность настраивать гиперпараметры модели, такие как скорость обучения, параметры регуляризации и др. Стоит отметить, что валидационные данные помогают предотвратить переобучение и улучшить качество модели по мере прогресса обучения.
Тестовая выборка. На заключительном этапе тестовые данные используются для объективной оценки модели на новых, ранее не встречавшихся текстах. Этот набор данных никогда не смешивается с обучающими или валидационными данными, что исключает риск запоминания.
Ограничения стандартных тестовых наборов данных
Стандартизированные наборы данных, такие как Flores 101 и NTREX, предоставляют базовую основу для тестирования, но имеют несколько ограничений, которые снижают их применимость в реальных условиях:
Ограниченное покрытие жанров. NTREX и Flores 101 в основном содержат тексты общего характера, такие как новостные статьи или материалы из Википедии, с ограниченным количеством специализированных текстов (например, юридических, медицинских или технических). Модели, обученные на этих наборах, могут испытывать трудности при переводе специализированной терминологии.
Отсутствие разговорных текстов. Стандартные наборы данных редко включают разговорную речь, примеры из мессенджеров или социальных сетей. Однако в реальной жизни такие тексты встречаются часто, и модель должна уметь обрабатывать сленг, аббревиатуры и даже эмодзи.
Недостаточное количество сложных грамматических конструкций. В стандартных наборах редко встречаются сложные грамматические конструкции, идиомы и многозначные слова, что ограничивает способность модели справляться с такими задачами.
Низкое представительство языков. Стандартные наборы часто не содержат достаточного количества примеров для редких языков или диалектов, что ограничивает их применимость для многоязычных моделей.
Наша методология выбора тестовых данных
Для преодоления ограничений стандартных наборов данных, мы разработали собственную методологию, которая лучше соответствует сложности и требованиям реальных задач перевода. Она основана на трех ключевых аспектах: разнообразие текстов, анализ редких терминов и многозначных слов, а также использование как автоматических, так и человеческих оценок.
Для каждого языка мы выбираем примерно 3 000 предложений из авторизованных источников, которые соответствуют следующим критериям:
Длина предложений. Мы проверяем способность модели обрабатывать как короткие предложения (например, «Увидимся!»), так и более длинные (например, «Буду очень признателен, если мы сможем перенести нашу встречу на 6 марта в 15:00»), содержащие сложные синтаксические структуры и вложенные придаточные предложения." - "Специальные символы и Unicode. Мы используем тексты с различными форматами, такими как HTML-теги, специальные символы, математические формулы и символы Unicode, чтобы оценить, как модель справляется с веб-контентом и технической документацией. Мы проверяем, как модель работает с эмодзи, ASCII-символами и смешанными языками. Например: Эмодзи: «Привет, друг ^_^:)» Формулы: «Формула: Cr2(SO4)3 + CO2 + H2O + K2SO4 + KNO3». Теги: «Я хочу купить XXXX товаров», где XXXX — это тег, который не должен переводиться»." - "Лексические особенности: В тестовые данные включены предложения с различными фигурами речи, временами глаголов, идиомами, сленговыми выражениями, прямой и косвенной речью, а также примеры различных частей речи и собственных имен. Важно, чтобы модель адаптировалась к различным типам речи и точно переводила как научные тексты, так и неформальные выражения. Например: Идиомы: «Ни пуха, ни пера!» Сленг: «Эй, чувак, пойдем тусить?» Многозначные слова: слово "ключ" может означать как инструмент для открывания замков, так и источник воды (родник).
Собственные имена, аббревиатуры и числа. Тестовые наборы включают предложения с собственными именами, аббревиатурами, брендами и числовыми данными. Мы применяем специальные правила для обработки этих элементов, чтобы модель не переводила собственные имена как обычные слова, а сохраняла их в исходной форме или адаптировала при необходимости. Собственные имена: «Я люблю песню “Купалинка”». Аббревиатуры: «Модель получила название 15.BVcX-10». Числа: «Это было в XII веке».
Многоязычные предложения. Мы проверяем, как модель обрабатывает предложения, содержащие слова на нескольких языках. Например: Слово « кот » может быть написано как “ cat” на английском, “猫” на китайском или “Γάτα” на греческом, в зависимости от языка.
Стилистика текста. Предложения различаются по стилю — от формального до разговорного: Формальный стиль: «Уважаемый господин, сообщаем вам...» Неформальный стиль: «Йо, как дела?»
Ошибки и опечатки. Тестовые данные могут содержать предложения с опечатками или ошибками, которые часто встречаются после оптического распознавания символов (OCR). Это позволяет проверить, как модель справляется с неточным вводом.
Кроме разнообразных текстовых структур, разнообразие тем является не менее важным для того, чтобы модели могли обрабатывать широкий спектр реальных задач перевода.
Разнообразие тем
В тестовые данные включено большое разнообразие тем. Это обеспечивает подготовленность модели к переводу текстов из различных областей, таких как: медицина, технологии, строительство, политика, экономика, право, кулинария, спорт и игры, военное дело, религия и культура, научные тексты, разговорная речь и сленг, а также идиоматические выражения. Такая классификация помогает модели охватывать многочисленные реальные сценарии использования, обеспечивая точный перевод в различных областях.
Комбинирование автоматических и человеческих оценок
Для точной оценки производительности мы используем не только автоматические метрики, такие как BLEU и COMET, но и человеческие оценки. Наша методология включает привлечение профессиональных лингвистов, которые оценивают переводы по следующим критериям:
Точность передачи смысла.
Грамматическая правильность.
Логичность текста и его естественность
Этот комплексный подход к оценке помогает нам выявить сильные и слабые стороны наших моделей и своевременно вносить улучшения.