『Совесть — не ослик: и не такое вывезет.』
_(с) Р. Суржиков, Полари_

『Халдер, проверь, что умеет сир Поросёнок.』
_(с) Д. Мартин, ПЛИО_

⋮ [Дисклеймер].
Беспристрастность. Анализ не претендует на безошибочную точность и не рекламирует труд писателей. Перевод романа: "Игра престолов" книги_1 из цикла "Песнь льда и огня" (далее "ПЛИО") с английского выполнил Ю. Соколов. Именно текст Соколова на русском в статье и будет анализироваться — это корректное исследование (т.е. какой и ощущается "Игра престолов" для русскоязычной аудитории), например, одна из наград в копилке ПЛИО за книгу "Игра престолов" получена не за оригинал, а за перевод романа на испанский.
Разберу на части парадокс Панова-Пехова, где в ходе эксперимента отразится физический смысл алгоритмов измерения лексического разнообразия текста: "MATTR"; "MTLD"; "HD-D"; "КУЛ", поймём почему же эти метрики необходимо ставить в три ряда, а не в один (меры измеряют разные аспекты одной характеристики), неточную интерпретацию сущности показателей встречал в некоторой RU-литературе.
Скрипты для NLP-анализа написаны мной, в основном пользовался ими для анализа и поддержания качества собственных материалов, а также парсил международные лонгриды для сравнения и оценки авторитетности персон.
Статья будет особенно интересна филологам, которые знают, что научных материалов в Интернете по оценке лексического разнообразия текста не так много, некоторые платные, а в Рунете единицы и часто поверхностные.

Преамбула

Видел некоторые баталии в комментариях от читателей на профильных ресурсах: частое сравнение между собой двух высокооценённых циклов в жанре эпическое фэнтези/средневековье — "ПЛИО" vs "Полари". Сходства и различия сводились к тема��ике, эпохе, локациям, чертам действующих лиц, слогу и другим очевидным и/или нетривиальным литературным приёмам и ходам. В этой статье добавлю контраста на художку и с математической точки зрения.

Публикую разбор дебютных книг из вышеупомянутых циклов:

Игра престолов (далее "ИП", англоязычное фэнтези, книга_1 из цикла "ПЛИО")

Стрела, монета, искра (далее "СМИ", русскоязычное фэнтези, книга_1 из цикла "Полари")

Аннотации.
Изображение N1. *Обложки книг.
Изображение N1. *Обложки книг.

"ИП": "При странных обстоятельствах умирает десница владыки Вестероса. Король Роберт со свитой отправляется на север к давнему другу Эддарду Старку, чтобы предложить тому занять место погибшего... Скрывающиеся в вольных городах потомки свергнутой Робертом династии Таргариенов вынашивают планы возвращения Железного Трона, но для этого им нужно заручиться поддержкой самого могущественного кхала великой степи. За спинами героев уже плетутся сети интриг, и никому не известно, какая фигура окажется очередной жертвой в игре престолов. А между тем зима приближается…"

"СМИ": "Полари — мир фантастического Средневековья. Суровые и жестокие нравы здесь соседствуют с диковинными ростками будущего, мечи и арбалеты — с первыми электростанциями и железными дорогами. Император Адриан ведет государство нелёгким путём реформ и прогресса. Могущественные феодалы плетут изощрённые интриги, поднимают мятежи в борьбе за власть. Церковь также пользуется огромным влиянием, ведь в мире Полари никто не сомневается в существовании богов. Боги не стоят в стороне: они шлют людям дары — непостижимые Священные Предметы. Писание гласит: в Предметах таится великая сила, способная исцелять болезни, управлять стихиями, разрушать преграды. Секрет этой силы утерян много веков назад…"

Экспертиза

Год публикации романов и возраст авторов

  • "ИП" — вышел в 1996г. (48 лет писателю).

  • "СМИ" — вышел в 2016г. (29 лет писателю).

Награды и Премии

  • "ИП" — 5.

  • "СМИ"— 2.

Оценки критиков

Изображение N2. Гендерная гистограмма распределения оценок по 10-балльной шкале. Мнение русскоязычной аудитории на *Фантлабе. "ИП" — шедевр; "СМИ" — почти шедевр, не хватило чего-то в прозе для мужчин.
Изображение N2. Гендерная гистограмма распределения оценок по 10-балльной шкале. Мнение русскоязычной аудитории на *Фантлабе. "ИП" — шедевр; "СМИ" — почти шедевр, не хватило чего-то в прозе для мужчин.
Изображение N3. Гистограмма распределения оценок по 5-балльной шкале. Мнение русскоязычной аудитории на LiveLib. Здесь небольшой перевес уже у "СМИ".
Изображение N3. Гистограмма распределения оценок по 5-балльной шкале. Мнение русскоязычной ау��итории на LiveLib. Здесь небольшой перевес уже у "СМИ".

Судя по оценкам читателей на разных авторитетных литературных порталах, "ИП" и "СМИ" — это как минимум добротное фэнтези.

Таблица основных метрик

Параметр

"ИП"

"СМИ"

Прим.

Кол-во предложений

25_509

33_171 (+30% | в 1.3 раз.)

Ср. длина предложений

9.4 слов (+10.6% | в 1.1 раз.)

8.4 слов

Самое длинное предложение

456 зн.

456 зн.

[1]

Кол-во слов

240_796

277_807 (+15% | в 1.1 раз.)

Доля эмоционального тона

3.4%

10.2% (+200% | в 3 раз.)

[2]

КУЛ (кол-во уникальных лемм)

13.5%/на 50К слов

16.7%/на 50К слов (+24% | в 1.2 раз.)

[3]

MATTR (локальное лекс. разнообразие)

70.6%

72.2%

[4]

HD-D (глобальное лекс. разнообразие).

91.93%

92.97%

[5]

Доля диалогов

58.3% (+24% | в 1.2 раз.)

47%

[6]

Рефрен-ругательство

"седьмое пекло"

"тьма (сожри)"

Самое длинное слово

"ХААууууууууууууууууууууу", 24 зн. (+20% | на 4 зн.)

"облагодетельствовать", 20 зн.

Имена ГГ, входящие в ТОП-10 слов (часто встречающиеся)

Джон; Нед; Тирион

Эрвин; Мира; Хармон

[7]

Закон Ципфа

(a = -1.358), текст не подчиняется

(a = -1.295), текст не подчиняется

[8]

Телесное повествование

сильнее, (+25%)

слабее

[8]

Использование алфавита

"ИП": буква, кол-во, процент

"СМИ": буква, кол-во, процент

'о', (139357, '11.11%'),
'е', (105493, '8.41%'),
'а', (101452, '8.09%'),
'и', (83837, '6.69%'),
'н', (82622, '6.59%'),
'л', (71625, '5.71%'),
'т', (68750, '5.48%'),
'с', (65778, '5.25%'),
'р', (64629, '5.15%'),
'в', (51804, '4.13%'),
'д', (41833, '3.34%'),
'к', (40997, '3.27%'),
'м', (38403, '3.06%'),
'у', (33283, '2.65%'),
'п', (33130, '2.64%'),
'я', (25224, '2.01%'),
'ы', (24936, '1.99%'),
'ь', (23991, '1.91%'),
'г', (23974, '1.91%'),
'б', (22633, '1.81%'),
'з', (21417, '1.71%'),
'ч', (15792, '1.26%'),
'й', (15267, '1.22%'),
'ж', (13729, '1.09%'),
'х', (11643, '0.93%'),
'ш', (9822, '0.78%'),
'ю', (6657, '0.53%'),
'ц', (5457, '0.44%'),
'щ', (3894, '0.31%'),
'э', (3323, '0.27%'),
'ф', (1385, '0.11%'),
'ъ', (334, '0.03%').

'о', (154049, '10.38%'),
'а', (121955, '8.22%'),
'е', (121598, '8.2%'),
'и', (99978, '6.74%'),
'н', (90046, '6.07%'),
'т', (86841, '5.85%'),
'л', (76495, '5.16%'),
'с', (75823, '5.11%'),
'р', (72320, '4.88%'),
'в', (66285, '4.47%'),
'д', (50234, '3.39%'),
'к', (47058, '3.17%'),
'м', (46831, '3.16%'),
'п', (41939, '2.83%'),
'у', (41671, '2.81%'),
'я', (29291, '1.97%'),
'ь', (29110, '1.96%'),
'ы', (27942, '1.88%'),
'г', (25529, '1.72%'),
'з', (23935, '1.61%'),
'б', (23225, '1.57%'),
'ч', (19555, '1.32%'),
'ж', (16488, '1.11%'),
'й', (15903, '1.07%'),
'х', (13884, '0.94%'),
'ш', (12356, '0.83%'),
'ю', (8843, '0.6%'),
'ц', (6701, '0.45%'),
'э', (5070, '0.34%'),
'щ', (4701, '0.32%'),
'ф', (2505, '0.17%'),
'ъ', (165, '0.015%').

Буква "ё" в обоих книгах практически сведена к нулю.
Убеждаемся, что частота появления исследуемой буквы алфавита в разнообразных, толстенных текстах одного языка ~близка, факт.
Аналогия с подкидыванием монеты: подбрасываем её несколько раз и результаты непредсказуемые, а если подбросить медяк 1 млн. раз, результат будет ~50x50. Напишите пару предложений на русском языке, и не факт, что буква 'о' по частоте будет на первом месте. Напишите крупную прозу на русском, и распределение букв будет ~как в таблице.

Интерпретация результатов

[1] Самые длинные предложения (СДП) в обоих романах совпали по количеству знаков.

В качестве сравнения: у Ф. Достоевского в "Преступление и наказание" — {СДП 736 зн.}, а у С. Кинга в "Противостояние" — {СДП 1575 зн.}.

"ИП" — {СДП 456 зн.}: «Это крыло было тоже составлено из конницы, но если справа располагался бронированный кулак из рыцарей и тяжеловооруженной кавалерии, то авангард войска западного края составили из отбросов: лучников в кожаных куртках, нестройной массы неприученных к боевому порядку вольных всадников и наемников, сельских работников на пахотных лошадях с косами и ржавыми мечами, полученными от отцов, недоученных ребят из борделей Ланниспорта, ну и Тириона с его горцами.»
"СМИ" — {СДП 456 зн.}: «Почти без помощи со стороны Хармона он вспомнил, что при встрече с графом следует отвесить поясной поклон, а кастеляну и рыцарям достаточно низкого кивка головой; что руку для пожатия протягивать не нужно — это дерзость; что Джоакин, как воин, имеет право звать графа "милорд", но учтивей все-таки говорить "ваша милость"; что место за столом Джоакину укажут, и сесть он должен никак не раньше, чем задница последнего из графских рыцарей коснется скамейки.»


[2] Доля эмоционального тона (ДЭТ) — процент предложений с восклицательными и вопросительно-восклицательными знаками, но не чисто вопросительными, например, "!/!!/!!!/?!!/?!/!?".

У автора "СМИ" Р. Суржикова ДЭТ — довольно внушительная.
Для сравнения: в классике Л. Толстого "Война и мир" — {ДЭТ ~5.1%}, а у Ф. Достоевского в "Преступление и наказание" — {ДЭТ ~17.5%}, на редкость поражающе высокая.


[3] Кол-во уникальных лемм (КУЛ) — количество уникальных лемм к общему знаменателю; или — активный словарный запас автора; или попросту — богатая речь, которую автор способен выдать в своём творчестве; или совсем уж прямо — интеллект автора, его начитанность.

Алгоритм (свой).

Преимущества алгоритма: не зависит от количества страниц, можно парсить тексты любого объёма, например, от 50К словоформ и выше. Точность ~99.5%. Сглаживается нелинейность лексического разнообразия. КУЛ Является идеализированной, истинной, глобальной мерой оценки словарного запаса автора текста и не сильно коррелирует с глобальной мерой лексического разнообразия HD-D, которую подробно разберём в данной статье.

Очищаю текст от спецсимволов, чисел, перевожу его в нижний регистр и с помощью Pymorphy3 лемматизирую, включая союзы и предлоги. Далее начинается самое интересное: из всего текста выбираю абсолютно рандомные 50К слов (лемм), сокращаю дублированные слова, а цифру, полученное количество уникальных слов из 50К лемм, заношу в список. Повторяю алгоритм 100 раз, на практике цикличность затрагивает все слова в тексте (не важно: проза из 100K или из 300К слов, в выборку попадёт каждая лемма, но при этом знаменатель останется общим — 50K). Далее, вычисляю среднее арифметическое из 100 цифр в списке и пропорцией привожу %уник.лемм/50К лемм. На финальном шаге вычисляю стандартное отклонение: каков разброс цифр на списке и вывожу его в процентах, т.е. смотрю ошибку, которая на 100 overkill циклах составляет ~0.3-0.7%. Т.е. алгоритм работает более чем удовлетворительно. Почему итерирую в 100 проходов, а не в 666? Потому что уже после ста итераций ошибка/разброс всегда менее 1%.
На лонгридах естественно сокращаю объём выборки 50K слов с 1/3 романа до 1/3 статьи.

Не проще ли рассчитать коэффициент ЛР, например, для 10000 слов, помножить на 5 и вычислить пропорцию, получив КУЛ? Нет, лексическое разнообразие текста — нелинейная характеристика, поэтому и существуют разносторонние подходы, которые пытаются измерить кривую ЛР вдоль и поперёк.

Расчёт сделан после приведения всех слов к базовой форме, насколько позволили open source pymorphy3 с корпусом русского языка OpenCorpora. Кстати, официальный сайт корпуса достояние под свободной лицензией, где каждый пользователь может внеси вклад в развитие лингвистики, где огромный вклад внесли известные и уважаемые отечественные филологи, сегодня под табу: в РФ недоступен, что отражает в т.ч. прямое отношение чиновников к защите русского языка.

Изображение N4. Сравнение программных библиотек. Пример разброса лемм-анализа в разных либах на Python. "Default" — анализируемый текст. "AOT" — русские NLP-пионеры из 2000-х, свой словарь (устаревший). "Pymorphy3" — использует достойного качества RU-корпус OpenCorpora, чья морфология изначально была основана на словаре AOT. "Spacy" — использует несколько на выбор предобученных RU-моделей из "Natasha".
Изображение N4. Сравнение программных библиотек. Пример разброса лемм-анализа в разных либах на Python. "Default" — анализируемый текст. "AOT" — русские NLP-пионеры из 2000-х, свой словарь (устаревший). "Pymorphy3" — использует достойного качества RU-корпус OpenCorpora, чья морфология изначально была основана на словаре AOT. "Spacy" — использует несколько на выбор предобученных RU-моделей из "Natasha".

"СМИ" написано красноречивее чем "ИП", сильно выше средних показателей, но обоим произведениям сокрушить незыблемые высоты не удалось.

КУЛ — важная характеристика, в отличие от метрики ЧБ, она не так предсказуема. Да, можно написать несколько предложений на русском языке и получить {КУЛ 100%}. Но когда объём литературного творчества будет стремиться к объёму прозы, то слова, синонимы неизбежно начнут повторяться, а уж служебные части речи и подавно. Если у фантаста низкий и ограниченный словарный запас и отсутствует способность к созиданию, то и язык его будет скудным, а КУЛ↓.


[4] MATTR(Mean Type-Token Ratio, метод предложен в 2010 году) — прогрессивная локальная метрика из области определения лексического разнообразия текста, как и КУЛ, отображает усреднённый ~% уникальных слов на X словоформ в любом заданном отрывке повествования, т.е. в моменте, скользящее ср. TTR с выбираемым размером рамки.

Физический смысл метрики: выбираем текст, задаём размер рамки, например, 3 слова, результат расчёта MATTR покажет 100%. Проверяем: тыкаем пальцем в любой отрывок из трёх слов в анализируемом тексте и все три слова должны быть не повторяющимися, т.е. получаем 100%.

Проще говоря: MATTR сильный индикатор лексического разнообразия сцен текста (если верить редким статьям из научных журналов, то метрика в достаточной степени, если не полностью, независима от "кривых эффектов" длины повествования). MATTR оценивает качество письма отрывками, т.е. порядок слов, их комбинация очень важны.

В моих примерах рамка метрики задана в 200 слов, несколько длиннее рамки для анализа текстов на английском языке. Алгоритм скользящего анализа усредняет TTR по каждой словоформе за шаг: размер рамки со смещением в одно слово, итерации идут до конца повествования. Описание алгоритма простыми словами: берём текст от самого начала с 1-го по 200-е слово, записываем полученный TTR (уникальные слова делим на общие, т.е. на 200), сдвигаем окно, извлекаем текст со 2-го по 201-е слово, записываем полученный TTR и так итерируемся до конца текста, а потом считаем среднее арифметическое из полученных TTR — это и есть MATTR лексического разнообразия в момент времени.

В "СМИ" MATTR выше, чем в "ИП"; в теории текст читается легче без спотыкания о тавтологию.(см. в статье разбор парадокса)

Если рот — это окно в разум, то язык — проводник.

Для расчёта MATTR на Python существуют библиотеки, например, "LexicalRichness" и "Lexical_diversity", данные расчётов бьются между собой, за исключением MTLD, где разница ±2%, значит вычисления корректные, кроме того, исходники кода и алгоритма простые, проверил.

Для использования либ на текстах русского языка необходимо подавать готовый список слов, а не строку, иначе получим немного разные показатели лексического разнообразия одного исследуемого изложения и это плохо. О причинах такого святотатства: "LexicalRichness" по умолчанию ожидает на входе строку и разбивает её на слова, ориентируясь на английский язык. А "Lexical_diversity" ожидает на входе список, который мы благополучно создаём из строки и лемматизируем.

LST = [i.lower() for i in re.split(r"\b\d+\b|_|[^\w'-]+", text) if i not in ("-", "")] #убираем цифры, спецсимволы, за исключением знака "-", в ниж. регистр, убираем пустые элементы из списка и тире, но не дефисы составных слов.

Пример нескольких исходных слов из текста "СМИ" и то, как они будут обработаны в разных либах: text = "по-лягушачьи, вторую-то, что-то, малец-бесеныш, золотых… _Смолден".

Различия по умолчанию.
"LexicalRichness" (не использовать на RU-языке строку) — в матанализ пойдут такие слова: ["полягушачьи", "вторуюто", "чтото", "малецбесеныш", "золотых…", "смолден"].
"Lexical_diversity" — ["по-лягушачьи", "вторую-то", "что-то", "малец-бесеныш", "золотой", "смолден"] — что нам и требуется.

Библиотеки, заточенные исключительно на английский язык, включая TextBlob, не считают символ многоточия за знак препинания (именно символ "…", а не три символа подряд "."), кроме того, опираются на свои исследования о составных словах через дефис.

Преимущества библиотеки "LexicalRichness": для некоторых метрик (MTLD/HD-D) можно задавать пороги, тогда как в "Lexical_diversity" пороги жёстко привязаны к коду. К сожалению, обе библиотеки не вычисляют современную метрику: MTLD-W, алгоритм которой был предложен в 2020 году.

lex = LexicalRichness(LST, preprocessor=None, tokenizer=None)#подаём список вместо строки.

[5] HD-D (Hypergeometric Distribution Diversity, метод предложен в 2010 году) — метрика призвана сравнивать разные по длине тексты на лексическое разнообразие, но в отличие от MATTR не локально, а глобально с некоторым золотым стандартом. Измеряется от 0 - 1 в у. е. 0 — автор повторяется, 1— максимум лексического разнообразия. Число всегда дробное и малое. Поэтому, для удобства, домножаю результат на 100 и получаю размах от 0 до 100(%), но это не проценты, нельзя результат интерпретировать как 92 больше 91 на 1%. Физический смысл метрики: если в КУЛ вместо 50К слов взять выборку в 42 слова, то КУЛ на различных текстах будет выдавать результат ~эквивалентный алгоритму HD-D. Вывод: под золотым стандартом подразумевается рандомная выборка 42-ух слов из текста и расчёт математического ожидания числа уникальных типов в случайной выборке на основе частот всех типов в тексте. Повторюсь: в отличие от локальной метрики MATTR, описывающей лексическое разнообразие сцен действий по тексту,HD-D описывает лексическое разнообразие общей картины повествования. Интерпретация результата: чем выше параметр, тем более математически сбалансирован текст, по факту — это {усреднённый % уникальных слов / на 42 словоформы, выборка по всему тексту}, результат получен через математическую вероятность ожидания, которая ~идентична алгоритму многократной выборке и усреднению.

Обычно, метрика HD-D близка в сторону единицы, т.е. к 100(%) (из-за сложности/богатства русского языка 42 слова не очень интересная выборка, она исходит из аспектов английского языка, но раз уж тексты 15 лет сравниваются с таким порогом, оставляем её по дефолту в 42 слова).

В "СМИ" HD-D высоченная, выше чем в "ИП". Суржиков отлично гармонизировал текст: где-то подавлял тавтологию, переставлял слова (учитывая неплохой его MATTR), подбирал синонимы, созидал новые словоформы для мира Полари, т.е писатель, как и все профессионалы, включая Мартина, усердно ковал, гравировал и полировал своё художество, факт. Автор обладает богатым словарным запасом(высокий КУЛ), и кажется, тягой к созиданию новых словоформ? Возможно, но в оркестре редко используемых слов в его прозе, как и в "ИП" в общем-то, единичные слова — общеупотребительные, например, "святоша", "сандалии", "гусиное", "шевелюру". HD-D росла в массе не за счёт редких словоформ, а скорее из-за подавления ТОП-слов.(см. в статье закон Ципфа) Также лемматизация из-за несовершенства ПО(см. изображение N4) неизбежно привносит погрешность, увеличивая вклад в HD-D, но ��та беда общая и уравнивает все тексты.


Сравнение КУЛ, MATTR и HD-D на художественных литературных произведениях.

  • Г. Олди, "Шутиха":
    · {MATTR ~80.3% уникальных слов на 200 словоформ в любом отрывке повествования};
    · {КУЛ ~26.7%/50K слов};
    · {HD-D ~94.547%}.
    Сумасшедшие показатели.

  • В. Панов, "Московский клуб":
    · {MATTR ~73% уникальных слов на 200 словоформ в любом отрывке повествования};
    · {КУЛ ~15.3%/50K слов};
    · {HD-D ~92.840%}.

  • У А. Пехова и его подруг в дебютном "Летос":
    · {MATTR ~73.8% уникальных слов на 200 словоформ в любом отрывке повествования};
    · {КУЛ ~14.1%/50K слов};
    · {HD-D ~91.551%}.

  • У столетнего романа Г. Хаггарда, "Дочь Монтесумы":
    · {MATTR ~67.7% уникальных слов на 200 словоформ в любом отрывке повествования};
    · {КУЛ ~12.4%/50K слов};
    · {HD-D ~89.570%}.

  • У столетней классики Ф. Достоевского, "Преступление и наказание":
    · {MATTR ~63.7% уникальных слов на 200 словоформ в любом отрывке повествования};
    · {КУЛ ~13.7%/50K слов};
    · {HD-D ~88.878%}.

  • В древней Библии, Новый Завет, книга 1-я:
    · {MATTR ~56.4% уникальных слов на 200 словоформ в любом отрывке повествования};
    · {КУЛ ~9.2%/50K слов};
    · {HD-D ~86.208%}.

  • "ИП" и "СМИ" см. таблицу основных метрик.

Сравнение КУЛ, MATTR и HD-D на статьях в жанре мемуары.

[!] Такое мега колоссальное лексическое разнообразие между статьями обусловлено и тем, что препринт из научного журнала экстремально замусорен личными местоимениями — "я"; "мой"; "свой".

"Тошнотворность"
Изображение N5. Рассказ студентки отклоняется от закона Ципфа (наклон: -0.618) из-за переизбытка ТОП-слов: "я/57" ("я" > чем кол-во предложений) и короткой выборки/текста.
Изображение N5. Рассказ студентки отклоняется от закона Ципфа (наклон: -0.618) из-за переизбытка ТОП-слов: "я/57" ("я" > чем кол-во предложений) и короткой выборки/текста.

присутствует в каждом предложении, заметно невооружённым глазом. Рассказ "ne555" из-за короткой выборки также не подчиняется закону Ципфа (наклон: -0.586). Смежные темы: тавтология, яканье (в плане высокого и неконтролируемого употребления личных местоимений), слова-паразиты, заимствования.

[!] Следующее предположение: размер рамки при расчёте MATTR для различных литературных форм (стихи, статьи, проза) необходимо подбирать.

[!] Важное наблюдение на основе анализа произведений: метрики отражают богатство и сложность текста. Сильное отклонение показателей в меньшую сторону сообщает о бедности языка; или о том, что в руках литература из прошлой эпохи, ограниченная словарём Академии Российской; или того проще — сказки, проза для крестьян. Сильное смещение показателей в большую сторону — это тяжёлый нарратив, например, упомянутая "Шутиха"; или какое-либо научное исследование, где без словаря терминов и понятий невозможно будет постигнуть смысл; или текст на русском, но с каким-нибудь нередким, пафосным вкраплением цитат на латыни.

[!] MATTR не всегда коррелирует с КУЛ/HD-D в унисон, показывая насколько сложна в усреднении и нелинейна метрика измерения лексического разнообразия. HD-D всегда довольно высок у настоящих писателей. Лично я первым делом при анализе текста смотрю на показатели в такой весомой последовательности: КУЛ, MATTR, HD-D.

[!] С помощью метрик удобно сравнивать не только тексты разных авторов, но и переводы одного произведения между разными изданиями, например, цензурируемые и не очень.

[!] Парадокс Панова-Пехова.

Одна метрика сообщает, что лексическое разнообразие выше у Панова, а другая говорит, что наоборот у Пехова. Как такое возможно?!

Проанализированные "Московский клуб" и "Летос" — обе прозы русскоязычные в жанре фэнтези. Структура художки единообразная: количество слов совпадает ~99K (лемм: 10390 / 9663); предложения имеют ~одинаковую длину ~9.5 слов и даже совпадающую долю диалогов ~57%. Парадокс из-за близких показателей текстов лишь усиливается, но зато сразу отметаются теории про "Тарантиновские диалоги".

1. Проверим HD-D, что метрика действительно глобальная и не подвирает. Для этого рассчитываем КУЛ, но с привязкой не к 50К, а к 42 словам. Результаты КУЛ/HD-D ~идентичны между собой для обоих романов, ошибка разброса у КУЛ относительно своего усреднения ~5%. Вывод: HD-D корректный алгоритм и рассчитывается честно.

2. Есть вероятность, что тогда плавает MATTR, проверяем в сравнении: для этого подтягиваем ещё одну математическую модель, описывающую лекс. разнообразие: MTLD (Measure of Textual Lexical Diversity, метод предложен в 2010 году).

Принцип расчёта MTLD: алгоритм начинает чтение текста с первого слова/леммы и читает, пока коэффициент разнообразия TTR не упадет ниже порога 72% (золотой стандарт, но опят же — это для английского языка), как только разнообразие падает ↓72% из-за дублирования предлогов/союзов и т.д., счётчик сбрасывается (записывается размер окна слов), начинается новая итерация и так далее, пока не достигнется конец повествования. По окончанию сканирования полученные данные о размерах окон усредняются.

Вольная интерпретация результата MTLD — это количество слов в усреднённом любом отрывке текста на уровне не ниже 72% лекс. разнообразия, т.е. показатель того, как долго в основном автор может не выдыхаясь удерживать "уникальный" темп изложения.

Для "Московского клуба" MTLD = 203, а для "Летоса" MTLD = 219. Разбор полученной цифры у показателя: если MTLD = 219, то это означает, что в среднем последовательном потоке 157 уникальных слов и 61 повторов при TTR 72% (219 - (219×0,72)). Подставим MTLD (219) в качестве размера рамки MATTR, получаем {MATTR ~72% уникальных лемм на 219 слов в любом отрывке повествования}. Отсюда важный вывод, что MTLD — это тоже локальная, фрагментарная, потоковая метрика, как и MATTR (статическое vs динамическая рамка) и практически напрямую с ней связана: MTLD показатель — это оптимальное, выбираемое окно рамки в MATTR. Как видим 219 > 200 слов, которые я брал в качестве рамки MATTR для распарсивания романов, хотя в английском языке принято брать меньший размер рамки, т.к.существует языковая разница в морфологии, средней длине слова.

Парадокс лексического разнообразия сохраняется, непонятно по итогу, где разнообразие точнее: у "Летоса" на основе локальных MATTR/MTLD — выше, но на основе HD-D/КУЛ — ниже, и всё с точностью наоборот в "Московском клубе". На ум приходит мысль, что Пехов написал роман в соавторстве с женщиной и сломал систему.

3. Подтягиваем тяжёлую артиллерию: обращаемся к закону Ципфа. Оба произведения подчиняются природе закона (1.169 / 1.180).

Распределение слов по закону Ципфа.
"Московский клуб":
1-10-ТОП-слов (в 4.72 раза МЕНЬШЕ);
11-100-ТОП-слов (в 2.08 раза МЕНЬШЕ);
101-1000-ТОП-слов (в 1.01 раза МЕНЬШЕ).

"Летос":
1-10-ТОП-слов (в 4.02 раза МЕНЬШЕ);
11-100-ТОП-слов (в 1.85 раза МЕНЬШЕ);
101-1000-ТОП-слов (в 1.01 раза БОЛЬШЕ).

Первая секция частота слов в романах совпадает — это служебные части речи, местоимения, и в ней же кроется разгадка.

Местоимения

МК

Летос

он

1017

1747 (+)

она

587

1873 (+)

они

652

1019 (+)

тот

285

885 (+)

я

1205

1098 (-)

Из таблицы видно, что стиль повествования в "Летос" идёт преимущественно от третьего лица, а в "МК" — наоборот.

Структура "Московского клуба".

Цитата, предложение:
"""
Любой Анклав мира находится на территории какого-либо государства, и каждое правительство, на территории которого расположен Анклав, сознательно или подсознательно считает его «своим».
"""

Слова в предложении повторяются, локальная динамика MATTR падает. Автор описывает локацию и называет сущности своими именами: "Анклав/территория", фантаст повторяет ключевые слова в каждом подобном абзаце/отрывке. Панов не размывает в динамике лемму "Анклав" и п.д. на ТОП-слова: "он/они" или "тот/те", возможно, для того чтобы не запутать читателя и заодно блеснуть своим активным словарным запасом (высокий КУЛ). Условно, через каждую 0.01% повествования автор подробно расписывает редкие в массе словечки: "мутабор; генавры; раллер; психопривод; суперсобака; нейкист; синдин; анклав" уникальными словами, которые далее по тексту редко встречаются.

Например, одно из уникальных описаний Анклавов (пять слов из восьми более не повторяются в романе), цитата:
"""
«Баварский район» во Франкфурте, «Площадь Мао» в Гонконге…
"""

Описав один Анклав, автор переходит к следующей локации "Анклава" в другой части света с совершенно новым набором словоформ. Глобальный словарь растёт, КУЛ/HD-D↑, а в динамике "Анклав" и ему п.д. слова повторяются, MTLD/MATTR↓.

Структура "Летоса".

Цитата, отрывок:
"""
— Больно? — Она осторожно коснулась израненной кожи подушечками теплых пальцев.
— Немного, — неохотно признал тот. — Лавиани остановила это на время, но {
опущение местоимения, чтобы не повторяться} сказала, что указывающие справятся лучше. Именно поэтому я приехал в ваше герцогство.
Ее левая рука загорелась светом, Шерон ощупывала каждый дюйм рисунка.
"""

Все слова в динамике уникальные, поэтому и локальные MTLD/MATTR↑ растут, но глобальные КУЛ/HD-D↓ падают, т.к. по всему роману "она; тот; лавиани; я; её; шерон" — это ТОП-слова, т.е. часто употребляемые, а в сцене комбинированные, разные.

5. Парадокс разрешён, по факту его и вовсе не было.
"Московский клуб" — это глубокое разнообразие (термины и придуманные словечки, которые то и дело локально повторяются, но их много), текст чаще от первого лица с богатой лексикой, но с частыми повторами слов-сущностей внутри сцен (техничность выше и спотыкания тоже).
В "Летос" глагольные сцены размыты однообразными ТОП-словами в моменте, но глобально используется один и тот же набор слов-местоимений в связке с действием: <он/она/они/тот... сказал/остановил/был...>, содержание от третьего лица с простой лексикой и условным разнообразием внутри абзацев (более продолжительное в моменте изложение без спотыканий о тавтологию).

Если изменить размер рамки MATTR с 200 до 650 слов, то для обоих романов результат сравняется, дальнейшее увеличение рамки окна начнёт считать перевес лекс. разнообразия уже в пользу "МК". То есть короткие абзацы (отрывки) в 100-300 слов Пехов чеканит с лёгкой руки: упрощённые по сравнению с лексикой Панова.

MATTR/MTLD vs HD-D/КУЛ (локальный vs глобальный показатель) не обязаны идти в унисон на одном тексте, т.е. обоим ползти вверх или вниз, доказательство получено на практике. Более того, глобальные HD-D и КУЛ не обязаны идти в едином ритме! Проэкспериментируем это утверждение на ладони: если проанализировать текст литературного произведения О. Славниковой, "Стрекоза, увеличенная до размеров собаки", то получим:
· {HD-D ~92.167%};
· {КУЛ ~19.6%/50K слов}.
Для сравнения смотрим на "СМИ", где:
· {HD-D ~92.97%};
· {КУЛ ~16.7%/50K слов}.

— Ещё один парадокс?!!
— Да.
— Ой, всё!

Хорошо, мы подобрались к физическому смыслу всех метрик.

MATTR/MTLDотражают последовательный поток (фрагментарно): насколько разнообразен язык прямо сейчас в сцене, локальные метрики текста. Меры показывают то, как автор комбинирует слова в отрывках, порядок слов очень важен — поэтому мера локальная. Оценка структуры текста.
HD-D — показывает словарное разнообразие автора в целом, условно глобальная метрика текста. Мера отображает то, как как автор пользуется своим словарём на протяжении всего изложения: гармонично или нет. Порядок слов абсолютно не важен, но важны пропорции слов. Оценка качества письма.
КУЛ — отображает истинное богатство словарного запаса автора на прозе, а не лексическое разнообразие на уровнях. Порядок слов абсолютно не важен и не важны пропорции слов. Глобальная метрика текста: идеализированный TTR, не зависящий от длины изложения романов, и с точностью ~99.5%, с условием, что в изложении не менее 50000 слов, т.е. практически любой роман в массе. Чтобы измерить истинную богатую речь автора в произведении (его словарь), не обязательно брать алгоритм метрики КУЛ, достаточно в качестве порога изменить 42 на 50К в HD-D, но из-за того, что HD-D предсказывает, а КУЛ рассчитывает, у HD-D/50K будет менее точный результат, но очень близкий к КУЛ.
Упрощённое различие между глобальными КУЛ vs HD-D. Пример: Алиса - 1 слово и Боб - 9 слов; или Алиса - 5 слово и Боб - 5 слов, для КУЛ не важна частотность, при любом раскладе будет 2 уникальных слова из 10 (словарь автора). Для HD-D комбинации слов также не важны, но очень важны их пропорции (вес слов/частотность).

Аналогия с шахматами.

Стратегия (+вскрыть ферзевой фланг и +ворваться на 7-ю горизонталь ладьёй, +разорвать пешечную цепь, +поскорее разменять лёгкие фигуры) — это КУЛ++++. Тактика — реализация плана для достижения вышеуказанной стратегии — это MATTR/MTLD/HD-D (+зафорпостить коня, +сделать связку, +сдвоить ладьи по вертикали, +разменять фланговые пешки), порядок тактических приёмов не важен, но важны повторы — это HD-D++++, а MATTR/MTLD — это те же комбинации и повторы приёмов (плюсов, порядок важен) в разной или строгой последовательности из тактики для реализации общей стратегии, только фокус здесь сосредоточен на тактике, а не на стратегии. Сколько плюсов и в каких комбинациях они реализованы — всё это в совокупности и говорит о силе и стиле шахматиста.

Даже для базового сравнительного анализа лексического разнообразия у изложений недостаточно брать на выбор всего лишь одну современную метрику текста, например, MATTR или HD-D, как это иногда делали некоторые филологи в исследованиях, а потом интерпретировали неоднозначные полученные результаты.


[6] Доля диалогов (ДД) у обоих авторов высокая, в "ИП" даже впечатляющая: в обустройстве мира фокус смещён с уклоном на персонажей и их взаимоотношения, а в "СМИ" — прорисовка мира и разговорчики существуют ~в равных долях.

Для сравнения: в дебютной фэнтезийной саге Д. Аберкромби "Кровь и железо" {ДД ~48%}, {мир↑; социум↑}, а в классике Ф. Достоевского "Преступление и наказание" — {ДД ~62.6%}, {социум↑↑}.


[7] О трёх главных героях, попавших в ТОП-10 слов, и о локациях.

Изображение N6. Линейный график, "ИП". Из графика видно: в романе упоминание ГГ в основном чередуются. Под конец повествования линия персонажа Неда затухает (его казнили). А незаполненное пространство говорит о том, что в книге происходят какие-то ещё масштабные действия, например, сюжетная линия о Дэни.
Изображение N6. Линейный график, "ИП". Из графика видно: в романе упоминание ГГ в основном чередуются. Под конец повествования линия персонажа Неда затухает (его казнили). А незаполненное пространство говорит о том, что в книге происходят какие-то ещё масштабные действия, например, сюжетная линия о Дэни.
Изображение N7. Линейный график, "СМИ". Из графика видно: в романе упоминание ГГ в массе также чередуются, но взаимодействие между героями ещё меньше. Например, в середине эпопеи персонаж Хармон исчезает и идёт параллельное изложение про Миру и Эрвина. К финалу романа основной фокус вновь смещается на Эрвина и его приключения.
Изображение N7. Линейный график, "СМИ". Из графика видно: в романе упоминание ГГ в массе также чередуются, но взаимодействие между героями ещё меньше. Например, в середине эпопеи персонаж Хармон исчезает и идёт параллельное изложение про Миру и Эрвина. К финалу романа основной фокус вновь смещается на Эрвина и его приключения.

Чередование упоминаний главных героев, которые видим на графиках, связано с тем, что действующие лица не идут на дело вместе и не ведут между собой бесед, т.е. наблюдаем классический литературный нарратив: множественную сюжетную линию. Обобщая: в каждом романе по три главных героя из множества персон вошли в ТОП-10 слов (служебные части речи и местоимения не брались в расчёт), и у всех наблюдается параллелизм. К родственности произведений можно отнеси и факт о том, что самые главные герои в обоих романах (№1 по частоте упоминаний) — это северяне ~одного возраста: в "ИП" — Джон, в "СМИ" — Эрвин.

Спойлер.

А если проанализировать фэнтезийную сагу "Полари" за пределами дебютной книги "СМИ", т.е. распарсить цикл, все 6 книг, то ключевой персонаж Эрвин — единственный из всех действующих лиц, кто закрепился в ТОП-10-15 часто употребляемых слов каждой книги.

Цикл "Полари" — завершён, а цикл "ПЛИО" — нет, поэтому железный факт предоставлен только про Эрвина.

О локациях.
Изображение N8. Стеблевой график, география в "ИП". Резкий всплеск упоминания столицы в конце романа — словосочетание входит в словарь терминов и понятий, который идёт как книжное послесловие.
Изображение N8. Стеблевой график, география в "ИП". Резкий всплеск упоминания столицы в конце романа — словосочетание входит в словарь терминов и понятий, который идёт как книжное послесловие.
Изображение N9. Стеблевой график, география в "СМИ".
Изображение N9. Стеблевой график, география в "СМИ".

К условным сходствам в обоих романах можно отнести такой геофакт: обе главные столицы находятся в средних широтах, а региональные, главные, зимние резиденции расположены в северных широтах и в условной близости к малоизученным землям; в "ИП" — эта населённая территория "за стеной", а в "СМИ" безлюдная локация называется "Запределье".
В "ИП" баланс упоминания ключевого северного замка относительно столицы выше ~в 2.5 раза, а в "СМИ" это соотношение ~равное.


[8] Закон Ципфа.

Закон Ципфа («ранг — частотность») — эмпирическая закономерность распределения частотности слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частотности их использования, то частотность n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n, так называемому рангу этого слова.
__(Wikipedia)__

Текст подчиняется закону, если наклон "a" в диапазоне логарифмических шкал: -0.8..-1.2.

Сгруппировал и рассортировал леммы, включая служебные части речи. Оба произведения отклоняются от закона Ципфа, причина в голове графика. В "ИП" резкое отклонение за счёт недостатка ТОП-10 слов (предлоги союзы). В "СМИ" отклонение тоже в голове графика за счёт недостатка тех же ТОП-слов, но не такое интенсивное. Оригинал "ИП" на английском также не подчиняется закону Ципфа. А, например, дебютный фэнтези-роман "Летос" из цикла "Синее пламя" А. Пехова подчиняется природе закона (a=-1.179), как и данная статья (a=-0.848).

В "ИП" на четверть сильнее преобладает телесный нарратив, чем в "СМИ": "рука:852/626"; "глаз:582/420"; "голова:460/391"; "лицо:457/303"; "нога:373/222"; "кровь:318/128"; "палец:244/148"; "волос:202/103"; "плечо:204/191"; колено:135/0"; "рот:118/113"; "сердце:113/108"; "грудь:126/169"; "тело:114/166"; "спина:105/151"; "слеза:103/0"; "душа:0/165"; "губа:0/111" — из секции ТОП-300 слов.

В "СМИ" господствует обращение на "вы", более по-дворянски что ли, тогда как в "ИП" акцентируется обращение в большей степени по имени. У обоих нарратив от первого лица ~одинаковый, но в "ИП" наблюдение от третьего лица выше ~на 65%.


Облако лемм

Вычищены местоимения, союзы, предлоги, междометия и глагол-лемма "быть", т.к. "быть" практически всегда врывается в ТОП-5 слов прозы. Баланс масштабирования слов намерено максимально смещён в пользу красоты заполнения пространства, нежели реального масштабирования слов на основе их частоты.

Habr агрессивно пережимает изображения до среднего качества, посмотреть исходные визуализации в высоком разрешении -> ("ИП" / "СМИ", см. функцию: "открыть оригинал").

Изображение N10. ТОП-300 самых часто встречающихся слов в "ИП".
Изображение N10. ТОП-300 самых часто встречающихся слов в "ИП".
Изображение N11. ТОП-300 самых часто встречающихся слов в "СМИ".
Изображение N11. ТОП-300 самых часто встречающихся слов в "СМИ".

В качестве заключения

В дебютной книге "Игра престолов" обустройство мира представлено по большей части через социальную составляющую: из суховатых диалогов, а дебютная книга "Стрела, монета, искра" в объёме потолще, с меньшим количеством диалогов, но гораздо более эмоциональными, а также, несмотря на юный возраст писателя, с более могучей богатой речью — и в динамике, и глобально. В "Игре престолов" сильнее течёт телесное повествование. Родственные факты: в анализируемых эпических фэнтези множество главных героев, и у каждого из романов в ТОП-10 часто употребляемых слов смогли войти сразу по три персоны, чьи сюжетные истории развиваются параллельно; а самые популярные персонажи — это северяне.

В статье распарсены замысловатые показатели текста: на математику и естественный физический смысл, чего автор не находил в удовлетворительном объёме в научной литературе.

Прелесть экономичного NLP анализа в том, что от начала и до конца, включая закон Ципфа, он бесплатный, локальный и доступен на ладони.

Практическое применение: мои ранние публикации страд��ли от низкого лексического разнообразия и "яканья", спустя годы вышеописанные в статье алгоритмы подтвердили повышение навыка письма, где результат выражается в цифрах; интересно сравнивать литературу как между собой, так и со своими публикациями, ведь алгоритмы современных метрик считаются избавленными от "кривых эффектов" длины изложения.

Изображение N12. Демонстрация работы 1/3 скриптов: распарсен текст небезызвестной, дебютной, фэнтезийной художки на Android в Termux. Конвертация fb2 -> txt и создание облака лемм тут же, т.е. в Termux, т.е. на ладони. Авто открытие результатов в Kiwi browser.
Изображение N12. Демонстрация работы 1/3 скриптов: распарсен текст небезызвестной, дебютной, фэнтезийной художки на Android в Termux. Конвертация fb2 -> txt и создание облака лемм тут же, т.е. в Termux, т.е. на ладони. Авто открытие результатов в Kiwi browser.
𝕋𝕙𝕖 𝕖𝕟𝕕
Изображение N13. Для почитателей исторического "фэнтези" добавил графическое представление "МиМ_1984г.". Из визуализации видно: Маргарита более популярный персонаж в романе нежели Мастер, которая врывается к середине истории, а взаимодействие ГГ приходится на финальную часть сюжета.
Изображение N13. Для почитателей исторического "фэнтези" добавил графическое представление "МиМ_1984г.". Из визуализации видно: Маргарита более популярный персонаж в романе нежели Мастер, которая врывается к середине истории, а взаимодействие ГГ приходится на финальную часть сюжета.

Издание

1984г.

1967г.

Кол-во предложений

9_617

9_365

Кол-во слов

112_820

112_453

Средняя длина предложений

11.7 слов

12 слов

Доля эмоционального тона

14.2%

11.6%

Доля диалогов

51.4%

48.4%

КУЛ

15.5%/на 50_000 слов

15.6%/на 50_000 слов

MATTR

67.44%/200 слов

67.50%/200 слов

HD-D

90.86%

90.86%

Закон Ципфа

(alpha): -1.150, подчиняется

(alpha): -1.147, подчиняется

Самое длинное предложение

586 зн.

580 зн.

Самое длинное слово

23 зн.

аналогично.

Дорогие читатели, вывод по "МиМ" попробуйте сформулировать сами на основе полученной информации.


💎 Опробовать поисковую систему, разработанную автором статьи.

* Аннотации, оценки читателей взяты из источника свободной информации — fantlab.ru.