Как стать автором
Обновить

Способ исследования текстов на японском языке с помощью Voyant Tools

Эта статья будет полезна тем, кто работает в YouTube с большими объемами японского текста. Мы расскажем как с помощью программы Voyant Tools легко провести анализ.

Сбор базы данных

Сбор данных удобнее всего делать с помощью родного парсера поисковой выдачи YouTube, который проанализирует соответствующие модули и комментарии к видео. Парсер называется Data Tools.

Необходимо использовать два модуля - Tab-файл и GDF-файл. С их помощью вы узнаете:

  • основную информацию и статистику видео;

  • количество комментариев от каждого отдельного пользователя;

  • сеть взаимодействия всех комментаторов видео.

Для примера мы выбрали комментарии под видео одного из самых популярных в Японии авторов YouTube. Основателем канала является студент Сюдзи, который отправился покорять питерский университет. Сюдзи повествует о своей жизни, рассказывает о ситуациях, с которыми столкнулся в быту, о различии в менталитете россиян и японцев. Активными комментаторами его видео являются пользователи обеих стран. В набор данных попало более 440 комментариев, в общей сложности это около 19 тысяч символов без пробелов. Этого более чем достаточно, чтобы продемонстрировать эффективность программы Voyant Tools при анализе японского текста.

Начальное облако слов - без обработки
Начальное облако слов - без обработки

Сложности перевода перед смысловым анализом

После того, как текст загрузили в анализатор, обнаружилась проблема. В облаке слов Cirrus мы увидели большую частоту некоторых слов. Та же проблема проскакивает и в блоках TermsBerry и Summary. Для новичков: Summary - это блок статистики всего корпуса, а TermsBerry отвечает за визуализацию, которая показывает связи слов друг с другом. Сложность состоит в том, что большое количество слов текста-первоисточника составляют отдельные буквы азбуки хирагана и катакана. Они не являются словами как таковыми. Исключение составляет лишь центральное слово “Россия” (на языке катакана - ロシア). Также в облаке мы обнаружили наиболее частый тэг для обозначения перевода строки br, который получен из комментариев на YouTube, и оторванные окончания глаголов:

  • масу - ます;

  • тэ - て;

  • та - た

  • най - ない

  • ттэ - って

  • сита - した.

Voyant Tools по способу сегментирования текста очень похож на Fugashi. Последний работает на языке программирования Python и используется как средство морфологического анализа. Но в случае с японским языком все значительно сложней, так как текст пишется без пробелов и с использованием сразу двух азбук и иероглифов. Также нужно учесть особенности японской разговорной речи.

Информация о тексте в окне Summary
Информация о тексте в окне Summary

После анализа мы увидели, что в тексте целых 102 раза встречается частица на (な), обозначающая восклицание, и 89 раз - частица нэ (ね), которая переводится как “не так ли”. Также часто встречаются частицы-связки и частицы, дополняющие эмоциональное выражение: нэ (ね), йо (よ), на (な), со (そう).

Такая путаница могла бы нас отвернуть от дальнейшей работы с текстом с помощью Voyant Tools. Но нам хотелось максимально сохранить вспомогательные глаголы и частицы на хирагане для дальнейшего анализа. Как это, например, сделала исследователь Лю Ван. Несмотря на трудности китайкой пунктуации, ей удалось провести очистку данных перед смысловым анализом.

Как избавиться от стоп-слов

Работа по очистке текста от стоп-слов, пожалуй, самая кропотливая. Мы условно ее разделили на несколько этапов.

Первый этап очистки

На этом этапе нам очень помогла работа японского исследователя цифровых гуманитарных наук Нагасаки Киёнори. Он доказывает, что Voyant Tools сохраняет полезную информацию о стиле автора, несмотря на переизбыток найденных частиц. 

Как следует поступить в данном случае? Просто проигнорировать статистику плагина о таких параметрах:

  • общее количество слов;

  • общее количество уникальных словоформ;

  • среднее количество слов в предложении.

Месторасположение списка стоп-слов
Месторасположение списка стоп-слов

Можно смело удалять ненужные вспомогательные глаголы и частицы и после этого переходить непосредственно к анализу.

Создайте и подгрузите в Voyant Tools собственный список стоп-слов. Для этого необходимо нажать “Define options for this tool”, а затем “Edit list”. Либо в настройках вручную дополнить стандартный список стоп-слов.

Правка списка стоп-слов
Правка списка стоп-слов

Советуем не выдумывать велосипед и воспользоваться готовым списком исследователя Нагасаки. В него входит максимальное количество слов и частиц, которые усложняют перевод с японского языка.

К ним относятся: 

  • служебные частицы;

  • отдельные буквы японских азбук;

  • некоторые цифры;

  • элементы без смысловой нагрузки.

Улучшение в облаке слов, база данных из комментариев к видео на YouTube
Улучшение в облаке слов, база данных из комментариев к видео на YouTube

После того, как мы дополнили стоп-лист советами ученого, переведенный текст стал более непонятным для восприятия.

Второй этап

Носители японского языка, как и все остальные серферы мирового интернет-пространства, многие из своих эмоций передают с помощью вспомогательных слов, уникальных частиц и смайликов.

Облако слов после всех этапов обработки
Облако слов после всех этапов обработки

Вот этот список:

  • w и ww (улыбка, смайлик);

  • нэ (ぬ с японского не так ли);

  • ттэ (って - употребняется, когда человек хочет поделиться  услышанным);

  • тта (った - разговорный вариант прошедшего времени).

Также мы расширили стоп-лист Нагасаки и добавили туда:

  • все единичные буквы хирагана;

  • частицу br.

Информация о тексте в окне Summary после всех этапов обработки
Информация о тексте в окне Summary после всех этапов обработки

Результат после очистки

В нашем тексте превалируют такие слова:

  • Россия - ロシア;

  • Япония - 日本;

  • человек - 人;

  • спасибо - ありがとう.

На этом этапе мы подключили еще один метод визуализации данных в Voyant Tools – TermsBerry.

Использование средства TermsBerry для визуализации данных и связей слов в Voyant Tools, пример слова «Россия» (ロシア)
Использование средства TermsBerry для визуализации данных и связей слов в Voyant Tools, пример слова «Россия» (ロシア)

Теперь видны такие связи:

  1. Россия (ロシア) чаще всего связана с человеком (人), языком (語) и девушками (女性);

  2. человек (人) связан с девушками (女性), мужчинами (男性), словами “хороший” (いい), “много” (多い) и “хочу увидеть” (みたい).

Слово “спасибо” (ありがとう) вместе со смайликами (笑) не образуют смысловых связок с другими словами. Но явно заметна обоюдная зависимость со словами “что-нибудь” (なんか), “хочу увидеть”, “впечатления” (印象), “нравится” (好き) и “почему” (なんで). Из этого можно сделать вывод, что пользователи задают вопросы создателю канала.

Заключение

Все выше написанное может показаться сложным для восприятия. Тем не менее модули Voyant Tools продемонстрировали, что способны на качественный анализ. Только перед этим необходимо провести подготовительные работы по дополнению предустановленного стоп-листа.

Теги:
Хабы:
Данная статья не подлежит комментированию, поскольку её автор ещё не является полноправным участником сообщества. Вы сможете связаться с автором только после того, как он получит приглашение от кого-либо из участников сообщества. До этого момента его username будет скрыт псевдонимом.