Как стать автором
Обновить

Комментарии 20

Хотелось бы увидеть в метрике оценку сложности еще и самого текста статьи относительно представленных «испытуемых», было бы весьма и весьма наглядно.

А так, спасибо за проделанную работу, интересно.

P.S. Тот самый случай, когда комментарий к статье (в случае автора) не уступает самой статье :)
Синтаксическая сложность — 0,015 (самый простой, но это нарочно, конечно), композитная сложность — 0,00017 (второе место после «Капитанской дочки»).
Вопросы:

1. Вы проверяли текст статьи на понятность? Какой рейтинг?
2. Что такое «удопонятность»?
3. Что такое «активное причастие», (в русском языке)?
4. По каким признакам определялись «активные причастия»? Или использовался словарь? Тогда — какой?
5. Что по вертикальной оси за единицы?
6. Как интерпретировать результат? Я сначала подумал, что чем выше столбик — тем сложнее текст, однако вы пишете «еще выше оказались «Капитанская дочка» (много нетривиальных написаний)».
7. Вывод — Капитанская дочка сложнее философских текстов, Войны и Мира и Закона об Образовании?
1. Синтаксическая сложность — 0,015 (самый простой), композитная сложность — 0,00017 (второе место после «Капитанской дочки»).
2. Легкость понимания — филологический сленг, прошу прощения.
3. Синоним причастия действительного залога.
4. По сочетанию граммем PRTF и actv в разборе слова, который давал pymorphy2.
5. Среднее количество активных причастий на предложение на первом графике и оно же умножить на редкость слова на втором.
6. Это было про отдельный рейтинг лексической сложности (средней редкости слов), для которого нет графика. «Капитанская дочка» в нем оказалась выше «Войны и мира», но ниже Мамардашвили и Закона об образовании.
7. Сложнее «Войны и мира» по средней редкости слов, но проще всех остальных текстов в синтаксическом и композитном рейтинге.
Не буду скрывать, что мои вопросы были с подвохом: я не нашёл у вас большого количества причастий (что должно было привести к ответу на первый вопрос «простой», как и произошло), но при этом не понял большую часть текста (остальные вопросы).

Удопонятность в гугле выдаёт 1 результат (после этой статьи — два). В яндексе — выдаёт только «понятность». Догадаться о значении можно, но незнакомые и необъяснимые слова снижают… эм… понимаемость.

Поиск по «активному причастию» выдал несколько типов в финском и азербайджанских языках, но (при беглом осмотре) — ничего про русский. Этим вы запутали меня ещё больше. Не будем вступать в полемику, но можно было написать и понятнее.

Я к чему. Есть много разных источников «непоняток» в текстах. В технических, на мой взгляд, их основа — аббревиатуры и сокращения. Мы подключаемся к хостам по HTTPS с SSL используя DNS и VPN, забывая, что это не для всех очевидные буквы. Также причина — кривая подача материала, неточное использование слов и терминов, да много чего ещё.

Я не говорю о том, что ваш (или в оригинальной статье) метод — плохой, ни в коем случае. Я говорю о том, что, скорее всего, нет абсолютной метрики «понятности текста» и исправлять тексты только потому, что система выдала неожиданный результат, не стоит. Хотя, такие результаты можно принимать во внимание: внимательнее прочитывать тексты, проводить A/B тестирования и так далее.

PS. Текст в этом комментарии по версии оригинальной статьи ориентирован на детей 12-14 лет.
Насколько я понимаю, речь как раз о том, что термины и аббревиатуры можно не считать источниками «непоняток» текста за исключением тех случаев, когда он написан явно мимо целевой аудитории. А вот чрезмерное употребление разных сложных конструкций может сделать непонятным текст даже без аббревиатур.
Прямо сейчас читаю ТЗ, в котором лично я понимаю 100% терминов и аббревиатур, но вообще не могу понять, что курил имел ввиду автор.
> Насколько я понимаю, речь как раз о том, что термины и аббревиатуры можно не считать источниками «непоняток» текста за исключением тех случаев, когда он написан явно мимо целевой аудитории.

Во-первых, автоматически сопоставить нацеленность на аудиторию невозможно. Так что такая метрика не катит. Как я сказал, можно проводить A/B тесты, но для всех-всех текстов не будешь этого делать. Поэтому мой выход — все тексты писать доступно и для широкой аудитории.

Во-вторых, даже в узкоспециализированной среде уровень знаний у людей разный и подразумевать, что люди поймут все-все сокращения — вставать на скользкую дорожку. (особенно учитывая, что одни и те же сокращения в разных темах могут обозначать совершенно разные вещи). Сам хабр тому яркий пример — профессиональные технические статьи пишутся только «для сведующих», но потом авторы удивляются, что их никто не читает и мало плюсуют. Хотите плюсиков — пишите для всех. Хотите грамотный фидбек от трёх специалистов — пишите узко, но не удивляйтесь общей незаинтересованности. Вопрос в целях.

Подчеркну: я не говорил, что сложные обороты — вещь понятная. Просто как единую метрику её использовать нельзя. С другой стороны, я не представляю, что можно, и сомневаюсь, что есть такой параметр. А по вашему примеру судить сложно, так как вы не уточнили, что именно не так в этом ТЗ. Быть может, это причастия, а может ( как я и писал ) — кривая подача, мешанина из терминов и прочего.
«Активное причастие» к тому же показывает, что из двух понятных слов можно сделать совершенно непонятное словосочетание, так что в идеальном мире надо еще проверять лемматизированные биграммы. Не уверен, что данных НКРЯ хватит, но надо будет подумать, как можно исхитриться.
Конечно. В идеальном мире придётся учитывать огромное число факторов. Классический пример: bash.im/quote/393460
На какой минимальной длине текста сложность определяется более-менее точно? И вы не думали сделать онлайн-проверяльщик сложности текстов? :)
Если смотреть на том же материале, то сходимость к среднему значению выглядит так (сначала по причастиям, потом по причастиям + словам; закон — красный, Мамардашвили — синий, «Война и мир» — бежевый, эпилог — коричневый, «Капитанская дочка» — желтый):





Если смотреть в абсолютных цифрах:



Т.е. что-то осмысленное начинается после первых двух тысяч слов, но прыжки еще достаточно сильные. Это, конечно, грустно. Видимо, перед тем как делать из этого какой-то инструмент, надо добавить еще показатели. Коллеги в кулуарах подсказывают, что еще один надежный признак канцелярита — активное употребление отглагольных существительных («осуществление», «внедрение» и т. д.). Попробую добавить их и посмотреть, что получится тогда.
График с абсолютными цифрами по композитному рейтингу.
Забыл сказать: единица по горизонтали — десять слов.
У меня есть предположение: если посчитать, подчинительные союзы, то результат получится похожий. Например, при выявлении наиболее устойчивых цепочек слов в текстах Мамардашвили в топ рейтинга попадало «потому что» и т.п.
Частотность слов — это важный параметр, но он все-таки жестко привязан к тематике текста: понятно, что, скажем, «симулякр» будет частотен в философских текстах и ни разу не встретится у Толстого, но это не говорит о сложности.
Я постараюсь проверить насчет союзов, но опыт — и не только мой — показывает, что активные причастия утяжеляют текст сильнее. (Вероятно потому, что это глагольная форма без признаков лица — их сложнее парсить. Мне даже «Человек, который приходил вчера» кажется проще, чем «Человек, приходивших вчера»; но это надо тестировать на людях.)
Что же касается терминов, я не вижу причин считать их чем-то отдельным от сложности текста, как вы, кажется, предлагаете. Если в тексте будет один-единственный «симулякр», то читатель с ним справится, конечно (хотя я вот раза четыре по совокупности сдавав философию, так и не понял, что это такое), но если терминов много, то он просто утонет. Это как читать на малознакомом языке: синтаксис вроде прозрачный, а смысл ускользает. Вся соль ведь в том, чтобы кто угодно мог без лишних усилий понять, о чем написано.
Это уже интереснее, полностью согласен, что злоупотребление активными причастиями капитально влияет на читаемость текста. И как раз этим особенно грешат составители канцелярских текстов. Интересно было бы выяснить причины этого явления. По моим наблюдениям люди, пишущие служебные записки и приказы, которые невозможно читать, в то же самое время ведут свой бложик вполне человеческим языком.
Автор, а субъективно какой текст легче? Я не читал Мамардашвили, и, собственно, закон тоже не читал, хотя и догадываюсь, как он написан. Ваши выводы относительно «Войны и мира» и «Капитанской дочки» кажутся мне правильными.
Мне субъективно, конечно, легче Мамардашвили — но это потому, что у меня гуманитарное образование. Весьма вероятно, что человеку с минимальным юридическим бэкграундом будет проще разобраться в законе. Что касается «среднего» человека, не хочу гадать.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации