Экономичный NLP анализ на примерах популярных фэнтези

『Совесть — не ослик: и не такое вывезет.』
_(с) Р. Суржиков, Полари_
『Халдер, проверь, что умеет сир Поросёнок.』
(с) Д. Мартин, ПЛИО_
⋮ [Дисклеймер].
Переработанный материал.
Беспристрастность. Анализ не претендует на безошибочную точность и не рекламирует труд писателей. Перевод романа: "Игра престолов" книги_1 из цикла "Песнь льда и огня" (далее "ПЛИО") с английского Ю. Соколов. Скрипты для NLP-анализа написаны мной, в основном пользовался ими для анализа и поддержания качества собственных материалов, а также парсил международные лонгриды для сравнения и оценки авторитетности персон.
Покажу физический смысл метрик измерения лексического разнообразия текста: "MATTR"; "MTLD"; "HD-D"; "КУЛ", и почему эти метрики необходимо ставить в два ряда, а не в один (алгоритмы измеряют разные аспекты одной характеристики), встречал в некоторой RU-литературе неточную их интерпретацию.
Статья будет особенно интересна филологам, которые знают, что научных материалов в Интернете по измерению лексического разнообразия текста не так много, а в Рунете единицы и часто поверхностные.
Преамбула
Видел некоторые баталии в комментариях от читателей на профильных ресурсах: частое сравнение между собой двух высокооценённых циклов в жанре эпическое фэнтези/средневековье — "ПЛИО" VS "Полари". Сходства и различия сводились к тематике, эпохе, локациям, чертам действующих лиц, слогу и другим очевидным и/или нетривиальным литературным приёмам и ходам. В этой статье добавлю контраста на художку и с математической точки зрения.


















