Я — цифровой гуманитарий. Я не просто читаю стихи. Я разбираю на цифры и собираю заново — чтобы увидеть то, что скрыто от глаз: ритм, лексику, синтаксис, звуковую ткань.
Сегодня я сравню двух классиков:
Александра Пушкина, основоположника современного русского языка и Петра Ершова, создателя «Конька-Горбунка», мастера народной сказочной поэзии.
Ершов как автор известен одним своим произведением, «Конек-горбунок». Не раз слышал, что Ершов ничего и не писал, что «Конька» на самом деле написал Пушкин или сильно вмешался в работу Ершова. Не буду искать истину в этом споре, но противостояние двух авторов натолкнуло меня на идею цифрового сравнения. Кто из них пишет сложнее, богаче, образнее? Кто ближе к поэзии, а кто — к устному рассказу?
Как буду сравнивать стиль?
Я взял «Конька-горбунка» и самый известный тест Пушкина, «Евгений Онегин». Проанализировал фрагменты текстов (по 10 000 символов) с помощью Python, используя следующие метрики:
1. Лексическое разнообразие (TTR) — отношение уникальных слов к общему числу слов.
2. Средняя длина предложения — индикатор сложности синтаксиса.
3. Распределение по частям речи — где больше глаголов, прилагательных, местоимений?
Более подробно разбор показан в моем видео https://dzen.ru/video/watch/69132bcfaedabb2e247560a7
Лексическое разнообразие TTR (англ. type/token ratio)это способ вычисления коэффициента, который позволяет определить отношение числа уникальных слов к общему числу слов в тексте. Коэффициент варьируется от 0 до 1. Теоретический 0 — это текст, где повторяется одно и то же словоупотребление бесконечно, а 1 — это текст, где все слова уникальны и не повторяются. Этот коэффициент имеет и недостаток - он не учитывает морфологическую разновидность слов, то есть слова разных частей речи могут быть учтены как разные типы, даже если являются однокоренными.
def analyze_text(text, name):
sentences = sent_tokenize(text, language='russian')
words = clean_words(text)
unique_words = set(words)
ttr = len(unique_words) / len(words) if words else 0
avg_sent_len = sum(len(word_tokenize(sent, language='russian')) for sent in sentences) / len(sentences) if sentences else 0
pos_counter = Counter()
for word in words[:1000]:
parsed = morph.parse(word)[0]
pos_counter[parsed.tag.POS] += 1Что получилось?
Метрика | Пушкин | Ершов |
Общее количество слов | 1211 | 1509 |
Уникальных слов | 913 | 873 |
TTR | 0.754 | 0.579 |
Средняя длина предложения | 23.7 | 19.4 |
По лексическому разнообразию Пушкин — чемпион.
TTR = 0.754 у Пушкина — это очень высокий показатель. Это значит, что 75% его слов — уникальны. Почти нет повторов.
У Ершова TTR = 0.579 — почти на 20% ниже. Нельзя сказать, что это плохо. Все же жанр «Конька-горбунка» это сказка, и такой коэффициент TTR типичен для устного повествования: слова повторяются, чтобы закрепить внимание, особенно у детей.
Сложность синтаксиса: длинные конструкции vs короткие строки.
Пушкин использует развёрнутые, музыкальные предложения с причастными оборотами, вводными словами и подчинительными связями. Это не случайность. Это стилистический выбор.
Распределение по частям речи: кто о чём говорит?
Пушкин: мир внутренних переживаний:
Часть речи | Частота |
Существительные | 331 |
Прилагательные | 174 |
Местоимения | 71 |
Наречия | 69 |
Пушкин — мастер описания, характеристики, психологического портрета.
Его тексты полны эпитетов, размышлений, внутренних диалогов.
Ершов: мир действия и событий.
Часть речи | Частота |
Существительные | 305 |
Глаголы | 194 |
Частицы | 86 |
Предлоги | 67 |
Ершов — мастер действия. Глаголы: «взял», «пошёл», «сказал». Частицы: «и», «а», «но» — создают ритм сказочного повествования.

- Пушкин лидирует по уникальности и сложности.
- Ершов — по объёму текста и частоте действий.
Но кто же победил?
Пушкин говорит о человеке. Ершов рассказывает историю. Пушкин — мастер слова, мысли и интонации. Его стиль требует вдумчивого чтения. Ершов — мастер сюжета, ритма и образа. Его стиль создан для восприятия на слух и запоминания. Разница в стиле — это разница целей и жанров. Пушкин пишет высоким литературным стилем, для образованного читателя. Ершов захватывает внимание, развлекает, учит. Его читатели – дети и он придерживается народно-сказочного стиля.
Цифровой анализ не заменяет чтение. Но он расширяет его возможности. Теперь мы знаем не на уровне интуиции, а на уровне данных:
Пушкин действительно использует более богатый словарь.
Ершов действительно пишет проще и ритмичнее.
Пушкин — это язык. Ершов — это сказка.
Если тема вам интересна — пишите в комментариях. Буду рад обсудить, доработать, запустить новый эксперимент.
