Простой способ оценки понятности текста на русском языке

По сути, опубликованное ниже является моим комментарием к публикации «Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов». Поскольку я не могу оставлять комментарии, то пишу в «Песочницу».

Критерии оценки понятности текстов, которые были рассмотрены в посте, опираются на практически нулевые знания о языке, на котором эти тексты написаны: достаточно знать, как он делится на слова и предложения. Этот подход удобен в плане простоты вычислений, но не позволяет использовать много релевантных данных. Как мне кажется, в случае с русским языком очевидно, что еще можно использовать, и эти данные легкодоступны.

По-моему, непонятность имеет смысл делить на два вида:

(а) глубинная непонятность (когда никак невозможно разобрать, что написано);

(б) непонятность, связанная со сложностью.

Непонятность типа (а), которой пропитан каждый второй, если не просто каждый, официальный документ, связана с тем, что люди попросту не умеют выражать свои мысли. То, что кажется понятным в голове и как-то удается объяснить «на словах», оказывается невозможно перенести на бумагу: обороты не закрываются, анафоры переплетаются, сочинение объединяет вещи, которым лучше вместе не быть, и так далее. В чистом случае отличить это автоматически от нормального текста сложно: часто даже людям, которые читают текст поверхностно, кажется, что он более или менее ничего, а потом оказывается, что это какой-то омут. Тем более невозможно автоматически это исправить: сначала приходится садиться с автором и долго у него выпытывать, что, собственно, он имел в виду. Но, к счастью, эта непонятность почти всегда влечет за собой непонятность типа (б), поэтому по крайней мере выявлять непонятные тексты можно.

Непонятность = сложность подразумевает, что люди используют какие-то нетривиальные языковые средства, которые без образования и/или приложения недюжинных усилий плохо понятны. И здесь мы сталкиваемся с опосредованной природой традиционных метрик. Длинных предложений, конечно, лучше избегать, но длинное предложение как таковое не синоним темноты: простое перечисление может сделать предложение длинным, не обязательно делая его непонятным. Использование длинных слов тоже не делает текст заведомо непонятным. В конце концов технический язык никто не отменял, и невозможно все тонкости передать простыми словами, не говоря уже о том, что в официальных документах не обойтись без «осуществления», «приведения» и тому подобных многобуквенных вещей. Другими словами, если не придумывать все время новых терминов, то постепенно люди начнут говорить на одном языке.

Мне кажется, что сложность типа (б) — это в первую очередь синтаксическая, или риторическая, сложность. Канцелярит обычно характерен тем, что дерево разбора фраз бытро пробивает потолок, и это характерно почти для любых «темных» текстов. Чтобы сделать тексты более понятными, нам надо сделать их структурно простыми. И это очень просто: в подавляющем большинстве случаев синтаксическая сложность достигается за счет использования одного-единственного средства — причастий действительного залога. Попробуйте написать запутанный текст без активных причастий, и вы увидите, что это практически невозможно. Или у вас будет получаться полный абсурд, или предложения по необходимости станут короче — и понятнее. Тезис о том, что русские люди в разговорной речи не используют причастий и деепричастий, стар как мир. Он не совсем верен — я знаю людей, которые используют в речи причастия и деепричастия, я сам их использую, — но не подлежит сомнению, что в первую очередь это принадлежность письменного языка и следствие попытки писать по-русски как Цицерон (или кого из греков копировали люди, которые запустили второе южнославянское влияние).

Я не утверждаю, что это единственно верный способ оценить понятность текста, но я почти уверен, что количество активных причастий выявит сложный русский текст не хуже любой другой однофакторной метрики. Для прикидочной проверки я взял пять текстов: «Капитанскую дочку», «Войну и мир», отдельно эпилог к «Войне и миру», славный своей удопонятностью, «Классический и неклассический идеалы рациональности» Мераба Мамардашвили (современный философский текст русскоязычного автора) и федеральный закон «Об образовании в Российской Федерации». Я поделил тексты на предложения и при помощи Python 3 + pymorphy2 посчитал среднее количество активных причастий в каждом из них. Результат получился предсказуемый, но все равно красноречивый:



Сервис, предложенный в посте, дает следующие результаты:



С полным текстом «Войны и мира» он с двух попыток не справился — было бы интересно узнать, в чем там дело. Мы видим, что очередность в рейтинге совпадает, но если мерить по причастиям, разница между Законом об образовании и «Капитанской дочкой», а также между эпилогом к «Войне и миру» и текстом Мамардашвили оказывается выше. Не поручусь насчет абсолютных значений, но подозреваю, что текст Мамардашвили сложнее текста Толстого.

Если зайти с другой стороны, то оказывается, что текст Мамардашвили — самый сложный из всех. Сложность слов можно считать не только по их длине, но и по встречаемости в текстах. Редкое слово = сложное. Чтобы измерить редкость слов, я взял данные о частотности, опубликованные на сайте НКРЯ, и для каждого текста сделал массив, где каждому слову соответствовало число = 1 / встречаемость (т.е. редкость слова). В таблице НКРЯ самые редкие слова имеют встречаемость 3, поэтому если слова в таблице не было, оно получало редкость 1/2. Затем я посчитал среднюю словарную редкость для всех текстов. В этом рейтинге «Война и мир» целиком обогнала эпилог (там нет французского), а еще выше оказались «Капитанская дочка» (много нетривиальных написаний), Закон об образовании и, с отрывом, «Идеалы». Это немного кривой результат, но он показывает, насколько специфический текст у Мамардашвили. Если же перемножить данные по причастиям и данные по словам, получается следующий рейтинг, на мой взгляд, весьма осмысленный:

Поделиться публикацией
Ой, у вас баннер убежал!

Ну. И что?
Реклама
Комментарии 20
  • +2
    Хотелось бы увидеть в метрике оценку сложности еще и самого текста статьи относительно представленных «испытуемых», было бы весьма и весьма наглядно.

    А так, спасибо за проделанную работу, интересно.

    P.S. Тот самый случай, когда комментарий к статье (в случае автора) не уступает самой статье :)
    • +1
      Синтаксическая сложность — 0,015 (самый простой, но это нарочно, конечно), композитная сложность — 0,00017 (второе место после «Капитанской дочки»).
    • +3
      Вопросы:

      1. Вы проверяли текст статьи на понятность? Какой рейтинг?
      2. Что такое «удопонятность»?
      3. Что такое «активное причастие», (в русском языке)?
      4. По каким признакам определялись «активные причастия»? Или использовался словарь? Тогда — какой?
      5. Что по вертикальной оси за единицы?
      6. Как интерпретировать результат? Я сначала подумал, что чем выше столбик — тем сложнее текст, однако вы пишете «еще выше оказались «Капитанская дочка» (много нетривиальных написаний)».
      7. Вывод — Капитанская дочка сложнее философских текстов, Войны и Мира и Закона об Образовании?
      • +5
        1. Синтаксическая сложность — 0,015 (самый простой), композитная сложность — 0,00017 (второе место после «Капитанской дочки»).
        2. Легкость понимания — филологический сленг, прошу прощения.
        3. Синоним причастия действительного залога.
        4. По сочетанию граммем PRTF и actv в разборе слова, который давал pymorphy2.
        5. Среднее количество активных причастий на предложение на первом графике и оно же умножить на редкость слова на втором.
        6. Это было про отдельный рейтинг лексической сложности (средней редкости слов), для которого нет графика. «Капитанская дочка» в нем оказалась выше «Войны и мира», но ниже Мамардашвили и Закона об образовании.
        7. Сложнее «Войны и мира» по средней редкости слов, но проще всех остальных текстов в синтаксическом и композитном рейтинге.
        • +1
          Не буду скрывать, что мои вопросы были с подвохом: я не нашёл у вас большого количества причастий (что должно было привести к ответу на первый вопрос «простой», как и произошло), но при этом не понял большую часть текста (остальные вопросы).

          Удопонятность в гугле выдаёт 1 результат (после этой статьи — два). В яндексе — выдаёт только «понятность». Догадаться о значении можно, но незнакомые и необъяснимые слова снижают… эм… понимаемость.

          Поиск по «активному причастию» выдал несколько типов в финском и азербайджанских языках, но (при беглом осмотре) — ничего про русский. Этим вы запутали меня ещё больше. Не будем вступать в полемику, но можно было написать и понятнее.

          Я к чему. Есть много разных источников «непоняток» в текстах. В технических, на мой взгляд, их основа — аббревиатуры и сокращения. Мы подключаемся к хостам по HTTPS с SSL используя DNS и VPN, забывая, что это не для всех очевидные буквы. Также причина — кривая подача материала, неточное использование слов и терминов, да много чего ещё.

          Я не говорю о том, что ваш (или в оригинальной статье) метод — плохой, ни в коем случае. Я говорю о том, что, скорее всего, нет абсолютной метрики «понятности текста» и исправлять тексты только потому, что система выдала неожиданный результат, не стоит. Хотя, такие результаты можно принимать во внимание: внимательнее прочитывать тексты, проводить A/B тестирования и так далее.

          PS. Текст в этом комментарии по версии оригинальной статьи ориентирован на детей 12-14 лет.
          • 0
            Насколько я понимаю, речь как раз о том, что термины и аббревиатуры можно не считать источниками «непоняток» текста за исключением тех случаев, когда он написан явно мимо целевой аудитории. А вот чрезмерное употребление разных сложных конструкций может сделать непонятным текст даже без аббревиатур.
            Прямо сейчас читаю ТЗ, в котором лично я понимаю 100% терминов и аббревиатур, но вообще не могу понять, что курил имел ввиду автор.
            • 0
              > Насколько я понимаю, речь как раз о том, что термины и аббревиатуры можно не считать источниками «непоняток» текста за исключением тех случаев, когда он написан явно мимо целевой аудитории.

              Во-первых, автоматически сопоставить нацеленность на аудиторию невозможно. Так что такая метрика не катит. Как я сказал, можно проводить A/B тесты, но для всех-всех текстов не будешь этого делать. Поэтому мой выход — все тексты писать доступно и для широкой аудитории.

              Во-вторых, даже в узкоспециализированной среде уровень знаний у людей разный и подразумевать, что люди поймут все-все сокращения — вставать на скользкую дорожку. (особенно учитывая, что одни и те же сокращения в разных темах могут обозначать совершенно разные вещи). Сам хабр тому яркий пример — профессиональные технические статьи пишутся только «для сведующих», но потом авторы удивляются, что их никто не читает и мало плюсуют. Хотите плюсиков — пишите для всех. Хотите грамотный фидбек от трёх специалистов — пишите узко, но не удивляйтесь общей незаинтересованности. Вопрос в целях.

              Подчеркну: я не говорил, что сложные обороты — вещь понятная. Просто как единую метрику её использовать нельзя. С другой стороны, я не представляю, что можно, и сомневаюсь, что есть такой параметр. А по вашему примеру судить сложно, так как вы не уточнили, что именно не так в этом ТЗ. Быть может, это причастия, а может ( как я и писал ) — кривая подача, мешанина из терминов и прочего.
            • 0
              «Активное причастие» к тому же показывает, что из двух понятных слов можно сделать совершенно непонятное словосочетание, так что в идеальном мире надо еще проверять лемматизированные биграммы. Не уверен, что данных НКРЯ хватит, но надо будет подумать, как можно исхитриться.
              • 0
                Конечно. В идеальном мире придётся учитывать огромное число факторов. Классический пример: bash.im/quote/393460
        • 0
          (Написал не туда, не могу теперь удалить.)
          • +1
            На какой минимальной длине текста сложность определяется более-менее точно? И вы не думали сделать онлайн-проверяльщик сложности текстов? :)
            • +1
              На хабре проскакивала статья:
              habrahabr.ru/company/ttt/blog/203334/
              И онлайн-проверяльщик из этой статьи:
              test-the-text.ru

              P.S.: macleginn, интересная у вас статья получилась! Спасибо!
              • +1
                Если смотреть на том же материале, то сходимость к среднему значению выглядит так (сначала по причастиям, потом по причастиям + словам; закон — красный, Мамардашвили — синий, «Война и мир» — бежевый, эпилог — коричневый, «Капитанская дочка» — желтый):





                Если смотреть в абсолютных цифрах:



                Т.е. что-то осмысленное начинается после первых двух тысяч слов, но прыжки еще достаточно сильные. Это, конечно, грустно. Видимо, перед тем как делать из этого какой-то инструмент, надо добавить еще показатели. Коллеги в кулуарах подсказывают, что еще один надежный признак канцелярита — активное употребление отглагольных существительных («осуществление», «внедрение» и т. д.). Попробую добавить их и посмотреть, что получится тогда.
                • 0
                  График с абсолютными цифрами по композитному рейтингу.
                • 0
                  Забыл сказать: единица по горизонтали — десять слов.
                • 0
                  У меня есть предположение: если посчитать, подчинительные союзы, то результат получится похожий. Например, при выявлении наиболее устойчивых цепочек слов в текстах Мамардашвили в топ рейтинга попадало «потому что» и т.п.
                  Частотность слов — это важный параметр, но он все-таки жестко привязан к тематике текста: понятно, что, скажем, «симулякр» будет частотен в философских текстах и ни разу не встретится у Толстого, но это не говорит о сложности.
                  • 0
                    Я постараюсь проверить насчет союзов, но опыт — и не только мой — показывает, что активные причастия утяжеляют текст сильнее. (Вероятно потому, что это глагольная форма без признаков лица — их сложнее парсить. Мне даже «Человек, который приходил вчера» кажется проще, чем «Человек, приходивших вчера»; но это надо тестировать на людях.)
                    • 0
                      Что же касается терминов, я не вижу причин считать их чем-то отдельным от сложности текста, как вы, кажется, предлагаете. Если в тексте будет один-единственный «симулякр», то читатель с ним справится, конечно (хотя я вот раза четыре по совокупности сдавав философию, так и не понял, что это такое), но если терминов много, то он просто утонет. Это как читать на малознакомом языке: синтаксис вроде прозрачный, а смысл ускользает. Вся соль ведь в том, чтобы кто угодно мог без лишних усилий понять, о чем написано.
                    • 0
                      Это уже интереснее, полностью согласен, что злоупотребление активными причастиями капитально влияет на читаемость текста. И как раз этим особенно грешат составители канцелярских текстов. Интересно было бы выяснить причины этого явления. По моим наблюдениям люди, пишущие служебные записки и приказы, которые невозможно читать, в то же самое время ведут свой бложик вполне человеческим языком.
                      Автор, а субъективно какой текст легче? Я не читал Мамардашвили, и, собственно, закон тоже не читал, хотя и догадываюсь, как он написан. Ваши выводы относительно «Войны и мира» и «Капитанской дочки» кажутся мне правильными.
                      • 0
                        Мне субъективно, конечно, легче Мамардашвили — но это потому, что у меня гуманитарное образование. Весьма вероятно, что человеку с минимальным юридическим бэкграундом будет проще разобраться в законе. Что касается «среднего» человека, не хочу гадать.

                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                      Самое читаемое