Учёные Новосибирского государственного университета (НГУ) разработали метод определения авторского стиля на основе математической статистики. Разработка одинаково эффективна для четырёх языков. Метод может найти применение в оценке качества переводов и решении вопросов заимствований и плагиата, в том числе текстов, созданных нейросетями. Результаты исследования опубликованы в октябре 2025 года в журнале Entropy.
Профессор факультета информационных технологий НГУ Борис Рябко вместе с коллегами и учениками разработал количественный метод определения авторского стиля. Метод основан на использовании аппарата математической статистики. Это позволяет определять достоверность полученных выводов.
Исследователи подобрали минимальный объём текста в килобайтах для определения авторского стиля сразу четырёх языков: русского, английского, китайского и используемого в Эфиопии амхарского языка. Борис Рябко отметил, что эти языки относятся к очень далёким друг от друга языковым группам. Даже сам вопрос о сравнении длины текста не так прост для них. Например, буквы в русском языке не сопоставимы с иероглифами в китайском. Каждый иероглиф может переводиться на русский язык целым словом, а иногда и предложением. В рассматриваемой работе для всех языков объём текста оценивался в килобайтах, то есть в одних и тех же единицах.
Ранее описанный метод применялся для определения авторства литературных произведений. В некоторых случаях авторы произведений неизвестны или авторство сомнительно, как, например, у произведений Шекспира. Теперь метод может найти практическое применение для оценивания качества различных переводов и квалификации переводчиков, в том числе компьютерных.
Борис Рябк�� пояснил, что качество перевода может существенно влиять на восприятие переведённого произведения. При предложенном подходе перевод тем лучше, чем в большей степени он сохраняет авторский стиль. При этом степень сохранения можно оценить количественно. Практически важная новая область применения разработки — оценивание качества машинного или компьютерного перевода, осуществляемого разными программами. Такие переводчики играют довольно важную роль в жизни современного общества.
Другая область применения метода — определять части текста, написанного разными авторами, в том числе и фрагменты, написанные искусственным интеллектом. Эта задача особенно актуальна для университетов, а может, уже и школ. Там довольно интенсивно ведётся борьба с плагиатом в студенческих работах. Описанный метод может быть применён и для решения этой проблемы.
