Комментарии 20
Хотелось бы увидеть в метрике оценку сложности еще и самого текста статьи относительно представленных «испытуемых», было бы весьма и весьма наглядно.
А так, спасибо за проделанную работу, интересно.
P.S. Тот самый случай, когда комментарий к статье (в случае автора) не уступает самой статье :)
А так, спасибо за проделанную работу, интересно.
P.S. Тот самый случай, когда комментарий к статье (в случае автора) не уступает самой статье :)
Вопросы:
1. Вы проверяли текст статьи на понятность? Какой рейтинг?
2. Что такое «удопонятность»?
3. Что такое «активное причастие», (в русском языке)?
4. По каким признакам определялись «активные причастия»? Или использовался словарь? Тогда — какой?
5. Что по вертикальной оси за единицы?
6. Как интерпретировать результат? Я сначала подумал, что чем выше столбик — тем сложнее текст, однако вы пишете «еще выше оказались «Капитанская дочка» (много нетривиальных написаний)».
7. Вывод — Капитанская дочка сложнее философских текстов, Войны и Мира и Закона об Образовании?
1. Вы проверяли текст статьи на понятность? Какой рейтинг?
2. Что такое «удопонятность»?
3. Что такое «активное причастие», (в русском языке)?
4. По каким признакам определялись «активные причастия»? Или использовался словарь? Тогда — какой?
5. Что по вертикальной оси за единицы?
6. Как интерпретировать результат? Я сначала подумал, что чем выше столбик — тем сложнее текст, однако вы пишете «еще выше оказались «Капитанская дочка» (много нетривиальных написаний)».
7. Вывод — Капитанская дочка сложнее философских текстов, Войны и Мира и Закона об Образовании?
1. Синтаксическая сложность — 0,015 (самый простой), композитная сложность — 0,00017 (второе место после «Капитанской дочки»).
2. Легкость понимания — филологический сленг, прошу прощения.
3. Синоним причастия действительного залога.
4. По сочетанию граммем PRTF и actv в разборе слова, который давал pymorphy2.
5. Среднее количество активных причастий на предложение на первом графике и оно же умножить на редкость слова на втором.
6. Это было про отдельный рейтинг лексической сложности (средней редкости слов), для которого нет графика. «Капитанская дочка» в нем оказалась выше «Войны и мира», но ниже Мамардашвили и Закона об образовании.
7. Сложнее «Войны и мира» по средней редкости слов, но проще всех остальных текстов в синтаксическом и композитном рейтинге.
2. Легкость понимания — филологический сленг, прошу прощения.
3. Синоним причастия действительного залога.
4. По сочетанию граммем PRTF и actv в разборе слова, который давал pymorphy2.
5. Среднее количество активных причастий на предложение на первом графике и оно же умножить на редкость слова на втором.
6. Это было про отдельный рейтинг лексической сложности (средней редкости слов), для которого нет графика. «Капитанская дочка» в нем оказалась выше «Войны и мира», но ниже Мамардашвили и Закона об образовании.
7. Сложнее «Войны и мира» по средней редкости слов, но проще всех остальных текстов в синтаксическом и композитном рейтинге.
Не буду скрывать, что мои вопросы были с подвохом: я не нашёл у вас большого количества причастий (что должно было привести к ответу на первый вопрос «простой», как и произошло), но при этом не понял большую часть текста (остальные вопросы).
Удопонятность в гугле выдаёт 1 результат (после этой статьи — два). В яндексе — выдаёт только «понятность». Догадаться о значении можно, но незнакомые и необъяснимые слова снижают… эм… понимаемость.
Поиск по «активному причастию» выдал несколько типов в финском и азербайджанских языках, но (при беглом осмотре) — ничего про русский. Этим вы запутали меня ещё больше. Не будем вступать в полемику, но можно было написать и понятнее.
Я к чему. Есть много разных источников «непоняток» в текстах. В технических, на мой взгляд, их основа — аббревиатуры и сокращения. Мы подключаемся к хостам по HTTPS с SSL используя DNS и VPN, забывая, что это не для всех очевидные буквы. Также причина — кривая подача материала, неточное использование слов и терминов, да много чего ещё.
Я не говорю о том, что ваш (или в оригинальной статье) метод — плохой, ни в коем случае. Я говорю о том, что, скорее всего, нет абсолютной метрики «понятности текста» и исправлять тексты только потому, что система выдала неожиданный результат, не стоит. Хотя, такие результаты можно принимать во внимание: внимательнее прочитывать тексты, проводить A/B тестирования и так далее.
PS. Текст в этом комментарии по версии оригинальной статьи ориентирован на детей 12-14 лет.
Удопонятность в гугле выдаёт 1 результат (после этой статьи — два). В яндексе — выдаёт только «понятность». Догадаться о значении можно, но незнакомые и необъяснимые слова снижают… эм… понимаемость.
Поиск по «активному причастию» выдал несколько типов в финском и азербайджанских языках, но (при беглом осмотре) — ничего про русский. Этим вы запутали меня ещё больше. Не будем вступать в полемику, но можно было написать и понятнее.
Я к чему. Есть много разных источников «непоняток» в текстах. В технических, на мой взгляд, их основа — аббревиатуры и сокращения. Мы подключаемся к хостам по HTTPS с SSL используя DNS и VPN, забывая, что это не для всех очевидные буквы. Также причина — кривая подача материала, неточное использование слов и терминов, да много чего ещё.
Я не говорю о том, что ваш (или в оригинальной статье) метод — плохой, ни в коем случае. Я говорю о том, что, скорее всего, нет абсолютной метрики «понятности текста» и исправлять тексты только потому, что система выдала неожиданный результат, не стоит. Хотя, такие результаты можно принимать во внимание: внимательнее прочитывать тексты, проводить A/B тестирования и так далее.
PS. Текст в этом комментарии по версии оригинальной статьи ориентирован на детей 12-14 лет.
Насколько я понимаю, речь как раз о том, что термины и аббревиатуры можно не считать источниками «непоняток» текста за исключением тех случаев, когда он написан явно мимо целевой аудитории. А вот чрезмерное употребление разных сложных конструкций может сделать непонятным текст даже без аббревиатур.
Прямо сейчас читаю ТЗ, в котором лично я понимаю 100% терминов и аббревиатур, но вообще не могу понять, чтокурил имел ввиду автор.
Прямо сейчас читаю ТЗ, в котором лично я понимаю 100% терминов и аббревиатур, но вообще не могу понять, что
> Насколько я понимаю, речь как раз о том, что термины и аббревиатуры можно не считать источниками «непоняток» текста за исключением тех случаев, когда он написан явно мимо целевой аудитории.
Во-первых, автоматически сопоставить нацеленность на аудиторию невозможно. Так что такая метрика не катит. Как я сказал, можно проводить A/B тесты, но для всех-всех текстов не будешь этого делать. Поэтому мой выход — все тексты писать доступно и для широкой аудитории.
Во-вторых, даже в узкоспециализированной среде уровень знаний у людей разный и подразумевать, что люди поймут все-все сокращения — вставать на скользкую дорожку. (особенно учитывая, что одни и те же сокращения в разных темах могут обозначать совершенно разные вещи). Сам хабр тому яркий пример — профессиональные технические статьи пишутся только «для сведующих», но потом авторы удивляются, что их никто не читает и мало плюсуют. Хотите плюсиков — пишите для всех. Хотите грамотный фидбек от трёх специалистов — пишите узко, но не удивляйтесь общей незаинтересованности. Вопрос в целях.
Подчеркну: я не говорил, что сложные обороты — вещь понятная. Просто как единую метрику её использовать нельзя. С другой стороны, я не представляю, что можно, и сомневаюсь, что есть такой параметр. А по вашему примеру судить сложно, так как вы не уточнили, что именно не так в этом ТЗ. Быть может, это причастия, а может ( как я и писал ) — кривая подача, мешанина из терминов и прочего.
Во-первых, автоматически сопоставить нацеленность на аудиторию невозможно. Так что такая метрика не катит. Как я сказал, можно проводить A/B тесты, но для всех-всех текстов не будешь этого делать. Поэтому мой выход — все тексты писать доступно и для широкой аудитории.
Во-вторых, даже в узкоспециализированной среде уровень знаний у людей разный и подразумевать, что люди поймут все-все сокращения — вставать на скользкую дорожку. (особенно учитывая, что одни и те же сокращения в разных темах могут обозначать совершенно разные вещи). Сам хабр тому яркий пример — профессиональные технические статьи пишутся только «для сведующих», но потом авторы удивляются, что их никто не читает и мало плюсуют. Хотите плюсиков — пишите для всех. Хотите грамотный фидбек от трёх специалистов — пишите узко, но не удивляйтесь общей незаинтересованности. Вопрос в целях.
Подчеркну: я не говорил, что сложные обороты — вещь понятная. Просто как единую метрику её использовать нельзя. С другой стороны, я не представляю, что можно, и сомневаюсь, что есть такой параметр. А по вашему примеру судить сложно, так как вы не уточнили, что именно не так в этом ТЗ. Быть может, это причастия, а может ( как я и писал ) — кривая подача, мешанина из терминов и прочего.
«Активное причастие» к тому же показывает, что из двух понятных слов можно сделать совершенно непонятное словосочетание, так что в идеальном мире надо еще проверять лемматизированные биграммы. Не уверен, что данных НКРЯ хватит, но надо будет подумать, как можно исхитриться.
Конечно. В идеальном мире придётся учитывать огромное число факторов. Классический пример: bash.im/quote/393460
(Написал не туда, не могу теперь удалить.)
На какой минимальной длине текста сложность определяется более-менее точно? И вы не думали сделать онлайн-проверяльщик сложности текстов? :)
На хабре проскакивала статья:
habrahabr.ru/company/ttt/blog/203334/
И онлайн-проверяльщик из этой статьи:
test-the-text.ru
P.S.: macleginn, интересная у вас статья получилась! Спасибо!
habrahabr.ru/company/ttt/blog/203334/
И онлайн-проверяльщик из этой статьи:
test-the-text.ru
P.S.: macleginn, интересная у вас статья получилась! Спасибо!
Если смотреть на том же материале, то сходимость к среднему значению выглядит так (сначала по причастиям, потом по причастиям + словам; закон — красный, Мамардашвили — синий, «Война и мир» — бежевый, эпилог — коричневый, «Капитанская дочка» — желтый):
Если смотреть в абсолютных цифрах:
Т.е. что-то осмысленное начинается после первых двух тысяч слов, но прыжки еще достаточно сильные. Это, конечно, грустно. Видимо, перед тем как делать из этого какой-то инструмент, надо добавить еще показатели. Коллеги в кулуарах подсказывают, что еще один надежный признак канцелярита — активное употребление отглагольных существительных («осуществление», «внедрение» и т. д.). Попробую добавить их и посмотреть, что получится тогда.
Если смотреть в абсолютных цифрах:
Т.е. что-то осмысленное начинается после первых двух тысяч слов, но прыжки еще достаточно сильные. Это, конечно, грустно. Видимо, перед тем как делать из этого какой-то инструмент, надо добавить еще показатели. Коллеги в кулуарах подсказывают, что еще один надежный признак канцелярита — активное употребление отглагольных существительных («осуществление», «внедрение» и т. д.). Попробую добавить их и посмотреть, что получится тогда.
Забыл сказать: единица по горизонтали — десять слов.
У меня есть предположение: если посчитать, подчинительные союзы, то результат получится похожий. Например, при выявлении наиболее устойчивых цепочек слов в текстах Мамардашвили в топ рейтинга попадало «потому что» и т.п.
Частотность слов — это важный параметр, но он все-таки жестко привязан к тематике текста: понятно, что, скажем, «симулякр» будет частотен в философских текстах и ни разу не встретится у Толстого, но это не говорит о сложности.
Частотность слов — это важный параметр, но он все-таки жестко привязан к тематике текста: понятно, что, скажем, «симулякр» будет частотен в философских текстах и ни разу не встретится у Толстого, но это не говорит о сложности.
Я постараюсь проверить насчет союзов, но опыт — и не только мой — показывает, что активные причастия утяжеляют текст сильнее. (Вероятно потому, что это глагольная форма без признаков лица — их сложнее парсить. Мне даже «Человек, который приходил вчера» кажется проще, чем «Человек, приходивших вчера»; но это надо тестировать на людях.)
Что же касается терминов, я не вижу причин считать их чем-то отдельным от сложности текста, как вы, кажется, предлагаете. Если в тексте будет один-единственный «симулякр», то читатель с ним справится, конечно (хотя я вот раза четыре по совокупности сдавав философию, так и не понял, что это такое), но если терминов много, то он просто утонет. Это как читать на малознакомом языке: синтаксис вроде прозрачный, а смысл ускользает. Вся соль ведь в том, чтобы кто угодно мог без лишних усилий понять, о чем написано.
Это уже интереснее, полностью согласен, что злоупотребление активными причастиями капитально влияет на читаемость текста. И как раз этим особенно грешат составители канцелярских текстов. Интересно было бы выяснить причины этого явления. По моим наблюдениям люди, пишущие служебные записки и приказы, которые невозможно читать, в то же самое время ведут свой бложик вполне человеческим языком.
Автор, а субъективно какой текст легче? Я не читал Мамардашвили, и, собственно, закон тоже не читал, хотя и догадываюсь, как он написан. Ваши выводы относительно «Войны и мира» и «Капитанской дочки» кажутся мне правильными.
Автор, а субъективно какой текст легче? Я не читал Мамардашвили, и, собственно, закон тоже не читал, хотя и догадываюсь, как он написан. Ваши выводы относительно «Войны и мира» и «Капитанской дочки» кажутся мне правильными.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Простой способ оценки понятности текста на русском языке