Экономичный NLP-анализ на примерах популярных фэнтези / Habr

『Совесть — не ослик: и не такое вывезет.』
_(с) Р. Суржиков Полари_

_{⋮ Дисклеймер:}
_{Беспристрастность. Анализ не претендует на безошибочную точность и не рекламирует труд писателей. Перевод романа "Игра престолов" книги_1 из цикла "Песнь льда и огня" (далее "ПЛИО") с английского Ю. Соколов. Скрипты для NLP-анализа написаны мной, в основном пользовался ими для анализа и поддержания качества собственных материалов, а также парсил международные лонгриды для сравнения и оценки авторитетности персон.}

Преамбула

Видел некоторые баталии в комментариях от читателей на профильных ресурсах: частое сравнение между собой двух высокооценённых циклов в жанре эпическое фэнтези/средневековье — "ПЛИО" VS "Полари". Сходства и различия сводились к тематике, эпохе, локациям, чертам главных героев, слогу и другим очевидным и/или нетривиальным литературным приёмам и ходам. В этой статье добавлю контраста на художку и с математической точки зрения.

Публикую разбор дебютных книг из вышеупомянутых циклов:

Игра престолов (далее "ИП", англоязычное фэнтези, книга_1 из цикла "ПЛИО")

Стрела, монета, искра (далее "СМИ", русскоязычное фэнтези, книга_1 из цикла "Полари")

Краткие аннотации.

"ИП": _{"При странных обстоятельствах умирает десница владыки Вестероса. Король Роберт со свитой отправляется на север к давнему другу Эддарду Старку, чтобы предложить тому занять место погибшего... Скрывающиеся в вольных ��ородах потомки свергнутой Робертом династии Таргариенов вынашивают планы возвращения Железного Трона, но для этого им нужно заручиться поддержкой самого могущественного кхала великой степи. За спинами героев уже плетутся сети интриг, и никому не известно, какая фигура окажется очередной жертвой в игре престолов. А между тем зима приближается..."}

"СМИ":_{"Полари — мир фантастического Средневековья. Суровые и жестокие нравы здесь соседствуют с диковинными ростками будущего, мечи и арбалеты — с первыми электростанциями и железными дорогами. Император Адриан ведет государство нелёгким путём реформ и прогресса. Могущественные феодалы плетут изощрённые интриги, поднимают мятежи в борьбе за власть. Церковь также пользуется огромным влиянием, ведь в мире Полари никто не сомневается в существовании богов. Боги не стоят в стороне: они шлют людям дары — непостижимые Священные Предметы. Писание гласит: в Предметах таится великая сила, способная исцелять болезни, управлять стихиями, разрушать преграды. Секрет этой силы утерян много веков назад…"}

Экспертиза

Год публикации романов и возраст авторов

"ИП" — вышел в 1996г. (48 лет писателю).
"СМИ" — вышел в 2016г. (29 лет писателю).

Премии

"ИП" — 5.
"СМИ"— 2.

Оценки критиков

Гендерная гистограмма распределения оценок по 10-и балльной шкале. Мнение русскоязычной аудитории на Фантлабе. "ИП" — шедевр; "СМИ" — почти шедевр, не хватило чего-то в прозе для мужчин.

Таблица основных метрик

параметр	"ИП"	"СМИ"	прим.
_{кол-во предложений}	_{12_989}	_{33_171 (+155% \| в 2.5 раз.)}
_{ср. длина предложений}	_{9.5 слов (+11% \| в 1.1 раз.)}	_{8.4 слов}
_{самое длинное предложение}	₄₅₁	_{456 (+1% \| на 5 зн.)}	[4]
_{кол-во слов}	_{124_277}	_{277_807 (+123% \| в 2.2 раз.)}
_{доля эмоционального тона}	_3.1%	_{10.2% (+229% \| в 3.3 раз.)}	[1]
_{кол-во уникальных}_лемм	_{19%/на 50К слов}	_{33%/на 50К слов (+73% \| в 1.7 раз.)}	[2]
_{доля диалогов}	_{60.7% (+29% \| в 1.3 раз.)}	_47%	[3]
_{часто употребляемое ругательство}	_{"седьмое пекло"}	_{"тьма(сожри)"}
_{самое длинное слово}	_{"противоестественное/незаконнорожденного" 19}	_{"облагодетельствовать", 20 (+5% \| на 1 зн.)}
_{имена ГГ, входящие в ТОП-10 слов}_{(часто встречающиеся)}	_{Джон; Нед; Бран; Тирион}	_{Эрвин; Мира; Хармон}

Использование алфавита по буквам

"ИП": _{буква, кол-во, процент}

"СМИ": _{буква, кол-во, процент}

('о', (72339, '11.146%')),
('е', (54739, '8.434%')),
('а', (52402, '8.074%')),
('н', (43326, '6.675%')),
('и', (42998, '6.625%')),
('л', (37449, '5.77%')),
('т', (35610, '5.487%')),
('с', (34207, '5.27%')),
('р', (32929, '5.073%')),
('в', (26569, '4.094%')),
('д', (21501, '3.313%')),
('к', (21297, '3.281%')),
('м', (19755, '3.044%')),
('у', (17331, '2.67%')),
('п', (17143, '2.641%')),
('я', (13145, '2.025%')),
('ы', (12648, '1.949%')),
('ь', (12601, '1.941%')),
('г', (12349, '1.903%')),
('б', (11759, '1.812%')),
('з', (11167, '1.721%')),
('ч', (8334, '1.284%')),
('й', (7733, '1.191%')),
('ж', (7084, '1.091%')),
('х', (5832, '0.899%')),
('ш', (5188, '0.799%')),
('ю', (3494, '0.538%')),
('ц', (2737, '0.422%')),
('щ', (1972, '0.304%')),
('э', (1670, '0.257%')),
('ф', (635, '0.098%')),
('ъ', (175, '0.027%')).

('о', (154049, '10.384%')),
('а', (121955, '8.221%')),
('е', (121598, '8.197%')),
('и', (99978, '6.739%')),
('н', (90046, '6.07%')),
('т', (86841, '5.854%')),
('л', (76495, '5.157%')),
('с', (75823, '5.111%')),
('р', (72320, '4.875%')),
('в', (66285, '4.468%')),
('д', (50234, '3.386%')),
('к', (47058, '3.172%')),
('м', (46831, '3.157%')),
('п', (41939, '2.827%')),
('у', (41671, '2.809%')),
('я', (29291, '1.975%')),
('ь', (29110, '1.962%')),
('ы', (27942, '1.884%')),
('г', (25529, '1.721%')),
('з', (23935, '1.613%')),
('б', (23225, '1.566%')),
('ч', (19555, '1.318%')),
('ж', (16488, '1.111%')),
('й', (15903, '1.072%')),
('х', (13884, '0.936%')),
('ш', (12356, '0.833%')),
('ю', (8843, '0.596%')),
('ц', (6701, '0.452%')),
('э', (5070, '0.342%')),
('щ', (4701, '0.317%')),
('ф', (2505, '0.169%')),
('ъ', (165, '0.011%')).

[1] Доля эмоционального тона (ДЭТ) — процент предложений с восклицательными и вопросительно восклицательными знаками, но не чисто вопросительными, например, "!/!!!/?!!...". У автора "СМИ" Р. Суржикова ДЭТ — довольно внушительная. Для сравнения: в классике Л. Толстого "Война и мир" — {ДЭТ ~5.1%}, а у Ф. Достоевского в "Преступление и наказание" — {ДЭТ ~17.5%}, на редкость поражающе высокая.

[2] Кол-во уникальных лемм (КУЛ) — активный словарный запас автора, или попросту — богатая речь. Расчёт сделан после приведения всех слов к базовой форме, на сколько позволил корпус русского языка OpenCorpora.

Сравнения. Пример разброса лемм-анализа в разных либах на Python. "default" — анализируемый текст. "AOT" — русские NLP-пионеры из 2000-х, свой словарь. "pymorphy3" — использует RU-корпус OpenCorpora. "spacy" — использует несколько на выбор предобученных RU-моделей из "natasha"...

Р. Суржиков в "СМИ" сумел обогатить текст до незыблемых высот. Такого высокого показателя метрики у кого-либо ещё, на вскидку, я не припоминаю. Для сравнения: у столетнего романа Г. Хаггарда "Дочь Монтесумы" — {КУЛ ~20.3%/50К слов}, а у современных писателей А. Пехова и его подруг в дебютном "Летос" — {КУЛ ~18.9%/50К слов}.

[3] Доля диалогов (ДД) у обоих авторов высокая, у Мартина в "ИП" даже впечатляющая. Для сравнения: в дебютной фэнтезийной художке Д. Аберкромби "Кровь и железо" — {ДД ~48%}, а в классике Ф. Достоевского "Преступление и наказание" — {ДД ~62.6%}.

[4] Самые длинные предложения в романах. В качестве сравнения: у Ф. Достоевского в "Преступление и наказание" — {СДП 736}, а у С. Кинга в "Противостояние" — {СДП 1575}.
"ИП" — {СДП 451}: _«_{Пока птицы кружили над его головой, а внизу жила своей жизнью крепость, Бран мог целые часы проводить между источенных дождями горгулий, в задумчивости приглядывавших за Первой Твердыней: правильно ли люди обрабатывают дерево и сталь во дворах, следят ли садовники за овощами в стеклянном саду, снуют ли без отдыха псы взад и вперед, молчалива ли по-прежнему богороща и не изменились ли сплетни девиц, обменивающихся ими во время стирки возле колодца?}»
"СМИ" — {СДП 456}: _«_{Почти без помощи со стороны Хармона он вспомнил, что при встрече с графом следует отвесить поясной поклон, а кастеляну и рыцарям достаточно низкого кивка головой; что руку для пожатия протягивать не нужно — это дерзость; что Джоакин, как воин, имеет право звать графа "милорд", но учтивей все-таки говорить "ваша милость"; что место за столом Джоакину укажут, и сесть он должен никак не раньше, чем задница последнего из графских рыцарей коснется скамейки.}»

Облако лемм

Вычищены местоимения, союзы, предлоги и некоторые междометия. Баланс масштабирования слов намерено максимально смещён в пользу красоты заполнения пространства, нежели реального масштабирования слов на основе их частоты.

Habr агрессивно пережимает изображения до низкого качества, посмотреть исходные визуализации в высоком качестве -> ("ИП" / "СМИ").

ТОП-300 самых часто встречающихся слов в "ИП".

ТОП-300 самых часто встречающихся слов в "СМИ".

В качестве заключения

Дебютная книга Мартина "ИП" по большей части состоит из диалогов/сухих, а дебютная книга Суржикова "СМИ" по объёму, как две "ИП", с меньшим количеством диалогов, но более эмоциональных, а также могучей богатой речью, не смотря на юный возраст писателя.

Прелесть экономичного NLP-анализа в том, что от начала и до конца он локальный и доступен на ладони.

Демонстрация работы 2/4 скриптов: распарсен текст небезызвестной, дебютной, фэнтезийной художки на Android в Termux. Конвертация fb2 -> txt и создание облака лемм тут же, т.е. в Termux. Авто открытие результатов в браузере.

𝕋𝕙𝕖 𝕖𝕟𝕕

💎 Опробовать поисковую систему, разработанную автором статьи.