Константина Паустовского называют мастером пейзажной лирики. В его произведениях природа действительно выступает не как фон событий, а как будто один из полноценных действующий персонажей. При этом при чтении повестей и рассказов Паустовского у читателя появляются положительные эмоции и какое-то ощущение приподнятости. Мне стало интересно попробовать разобраться, за счет каких лексических средств писатель так здорово оперирует впечатлениями читателя.  

Я нашел в интернете полное собрание сочинений Паустовского, издательства "Художественная литература" 1981 года. Я скачал все файлы 9 томов и с помощью Python объединил все тексты в один файл .txt. В 8 и 9 томах этого сборника опубликованы пьесы и письма писателя, и для большей чистоты эксперимента эти тома я удалил. 

Далее я решил с помощь инструментов Python установить, как Паустовский обращается с некоторыми категориями природы. Мне показалось интересным в одном эксперименте изучить приемы и обращения писателя со словом "облака", как одном из ключевых элементов пейзажа. Я решил математически установить, использует ли автор облака только как метеорологическую среду или придает им художественные свойства. 

Для начала я разбил весь корпус произведений Паустовского на предложения и посчитал их. Отфильтровал все предложения по знакам препинания и ограничил длину "не менее 20 символов".

sentences = re.split(r'[.!?…]+', text)
sentences = [s.strip() for s in sentences if len(s.strip()) > 20]

Получилось, что всего в тексте 8867522 символов и было найдено 108090 предложений.

Далее я провел поиск по ключевым словам и вычислил все предложения, которые содержат слово "облака" и другие похожие и важные для моего поиска слова и посчитал эти предложения.

target_keywords = ['облако', 'небо', 'туча', 'облачко', 'облака', 'небес', 'тучи']
target_forms = set(target_keywords)
morph = pymorphy3.MorphAnalyzer()
for lemma in ['облако', 'небо', 'туча']:
    parsed = morph.parse(lemma)[0]
    for form in parsed.lexeme:
        target_forms.add(form.word.lower())

Получилось, что на весь корпус текстов оказалось предложений, содержащих слова об облаках и небе всего 2282. Это 2,1 %. Далее я решил установить, где искомые слова соседствуют с метеорологическими терминами, то есть описываются именно как часть природного фона. И где они упоминаются с теми или иными метафорическими маркерами.

meteorological_terms = {
    'тип_облака': ['кучевые', 'кучевое', 'кучевая', 'кучевых', 'кучевыми', 'кучевым',
                   'слоистые', 'слоистое', 'слоистая', 'слоистых', 'слоистыми',
                   'перистые', 'перистое', 'перистая', 'перистых', 'перистыми',
                   'перья', 'перо', 'тяжелослоистые', 'тяжелослоистое', 'тяжелослоистая'],
artistic_metaphors = {
    'Реаморфизм_Города': ['города', 'город', 'средневековые', 'крепостными', 'башнями', 'соборами',
                          'базиликами', 'арками', 'триумфальными', 'башни', 'древними'],
    'Реаморфизм_Корабли': ['армады', 'парус', 'паруса', 'корабли', 'днищами', 'ядра', 'пушек',
                           'несущихся', 'старинному', 'бронзовых'],
    'Реаморфизм_Вата_Ткани': ['вата', 'ваты', 'ватой', 'ватные', 'рваную', 'грязную', 'жгут',
                              'пряди', 'пряжа', 'шелка', 'сырца', 'туманные', 'тюлевую', 'мглу',
                              'пух', 'наковальню'],
    'Натурморфизм_Дым_Пар': ['дым', 'дыма', 'дымом', 'низкому', 'загадочен', 'тонкий',
                             'курились', 'дымились', 'пар', 'бриллиантовый']

Получилось такое распределение, что уже подтверждает мою гипотезу об использовании природы не как фона, а скорее как персонажа.

Классифицировано предложений: 2282

Распределение типов:

  metaphorical    — 1096 ( 48.0%)

  neutral         —  963 ( 42.2%)

  mixed           —  156 (  6.8%)

  meteorological  —   67 (  2.9%)

Всего описаний облаков проанализировано: 2282

Чисто метеорологические описания: 67 (2.9%)

Чисто художественные метафоры:    1096 (48.0%)

Симбиоз (оба типа):              156 (6.8%)

Без явных маркеров:                 963 (42.2%)

Плотность текста с облаками и без
Плотность текста с облаками и без

Как читателя, меня самого впечатляло, что Паустовский работает не только с образами природы, но и активно соединяет их с описанием тех или иных художников и живописных приемов. Я решил персонализировать корпус и установить связь облаков с живописью и визуальными образами. Я собрал фамилии самых известных мне русских и зарубежных художников, названия картин, художественные термины ("кисть", "мольберт", "пейзаж") и глаголы света и цвета ("вспыхивать", "светиться", "мерцать"). Посчитал количество таких предложений и установил плотность.

Текст загружен. Размер: 8867522 символов

Найдено предложений: 108090

Найдено абзацев: 44549

Списки ключевых слов загружены

Найдено упоминаний художников: 2017

Найдено упоминаний картин: 770

Найдено терминов живописи: 11299

Найдено глаголов света: 1263

Предложений с облаками/небом: 2282

Предложений с облаками И живописью: 688

Доля: 30.1%

Абзацы С облаками (2116):

  Глаголы света: 0.43 на 1000 символов

  Прилагательные цвета: 1.10 на 1000 символов

  Термины живописи: 1.85 на 1000 символов

  ОБЩАЯ плотность: 3.38 на 1000 символов

Абзацы БЕЗ облаков (42433):

  Глаголы света: 0.14 на 1000 символов

  Прилагательные цвета: 0.42 на 1000 символов

  Термины живописи: 1.19 на 1000 символов

  ОБЩАЯ плотность: 1.74 на 1000 символов

РАЗНИЦА (облака - без облаков):

  Глаголы света: +0.29

  Прилагательные цвета: +0.67

  Термины живописи: +0.67

  ОБЩАЯ визуальность: +1.63

Художники  в текстах Паустовского
Художники в текстах Паустовского

Любопытный результат получился по исследованию частоты самых упоминаемых художников в текстах Паустовского. На первом месте оказался Сальвадор Дали. Допущу, что это артефакт анализа, скорее всего Паустовский часто применяет слово "дали", имея в виду даль, природный пейзаж. Но вот по художникам на втором и третьем местах сомнений быть не может. Это Мане, Левитан и Кипренский. Такая высокая художественная эрудиция делает, конечно, честь писателю.

По результатам подсчета 30.1% от предложений с облаками содержат маркеры живописи. У специалистов такое явление называется "интермедиальность", взаимодействие разных видов искусств. Это тип структурной взаимосвязи внутри художественного произведения, основанный на взаимодействии языков разных видов искусства. Примерно в 10% от всех предложений корпуса Паустовский используют те или иные термины живописи. Всего таких предложений в корпусе 11299. Этим я количественно подтверждаю, что писателя не зря называют "художником в прозе".

Опираясь на свое впечатление от чтения произведений Паустовского, я решил проверить, почему его проза оставляет такое положительное эмоциональнее впечатление. Я проверил, какие ключевые семы соответствуют концепту "облако". Использовал модель rubert-base-cased-sentiment и собрал в отдельный словарь позитивные ключевые слова ("счастье, покой, тишина, мирный, чистый"). И в другой – негативные ("тревога, смерть, грязный, опасный").

sentiment_results = []
for sentence in target_sentences:
    sentiment = analyze_sentiment_lexicon(sentence)
    sentiment_results.append({
        'sentence': sentence[:200],
        'sentiment': sentiment
    })
 all_sentiments = [r['sentiment'] for r in sentiment_results]

Вот что у меня получилось.

Всего проанализировано предложений: 2282

Распределение тональности:

  Positive     —  124 (  5.4%)

  Negative     —   67 (  2.9%)

  Neutral      — 2087 ( 91.5%)

  Mixed        —    4 (  0.2%)

Тональность неба и облаков
Тональность неба и облаков

Отдельно надо сказать про предложения негативной тональности. Их немало. По всей вероятности, это связано с отрывками из военной прозы. Сам Паустовский не воевал, но лето 1941 года он провел на фронте в качестве корреспондента ТАСС. В книге "Романтики" у Паустовского встречается такое описание природы "обугленные ракиты протягивали к дождливому небу черные исполинские руки". Но все же распределение однозначное, 5.4% позитивных коннотаций против 2.9% негативных.

Облака у Паустовского – бесконечный источник творческого созерцания и мой анализ подтверждает эту гипотезу. При этом он использует описания природы и облаков не подряд, а выборочно. Паустовский прибегает к этим описаниям не для декоративного заполнения пейзажа, а в моменты, когда требуется передать настроение, символический подтекст или интермедиальную отсылку. Лексикон живописи является неотъемлемой частью стиля Паустовского. Писатель использует профессиональную терминологию не для демонстрации знаний, а как инструмент художественной выразительности. Больше того, анализ показывает значительный интермедиальный маркер. Упоминания облаков, связанных с живописью, показывают Паустовского именно как писателя-художника. Он не просто описывает облака, а как бы "рисует" их словами, используя арсенал живописных терминов.

В том, что касается эмоциональный характеристики предложений с облаками, то налицо доминирование нейтральной тональности. Здесь Паустовский проявляет себя как писатель-натуралист, фиксирующий форму без эмоциональной оценки.

Мои выводы основаны не на отдельных произведениях, а на полном анализе корпуса.