Comments 42
Идея вычисления «коэффициента сложности» кажется недоработанной без учёта тематики текста.
В опросе у вас врачи, юристы и чиновники/экономисты. Но у них же действительно другие определения, другие формулировки, и упрощать их до общетематических странно.
В опросе у вас врачи, юристы и чиновники/экономисты. Но у них же действительно другие определения, другие формулировки, и упрощать их до общетематических странно.
Так практика в мире как раз в сторону упрощения любых формулировок до простых. Например, очень многие юридические тексты сильно избыточны. А некоторые банки уже начинают использовать простые термины в описании услуг и условий их оказания.
Я боюсь, у нас в «сложных» сферах слишком много заимствованных слов, к таким текстам неприменимы общие стандарты.
Потому и упомянул про учёт тематики в расчётах.
Понятные условия, законы и прочее — это вообще отдельная тема. Если б под каждым шматком текста в законах было «Если кратко, то выше написано об этом: %пара_предложений%», в правовой сфере ориентировалось бы гораздо больше людей.
Потому и упомянул про учёт тематики в расчётах.
Понятные условия, законы и прочее — это вообще отдельная тема. Если б под каждым шматком текста в законах было «Если кратко, то выше написано об этом: %пара_предложений%», в правовой сфере ориентировалось бы гораздо больше людей.
Я боюсь, у нас в «сложных» сферах слишком много заимствованных слов, к таким текстам неприменимы общие стандарты.Почему неприменимы? Как раз стандартный подсчет и показывает, что специализированные тексты — сложные. Это действительно так — они понятны только специалистам.
Надо ли упрощать — уже отдельный вопрос, особого отношения к методике расчета сложности не имеющий.
Ну просто сравнивать нужно однородные по тематике документы
«Понятность» интересно проверить на литературе разных жанров и разных веков.
Так вот же — есть формула, есть сервис.
Да вот навскидку несколько абзацев из «Капитанской дочки» нашего всего:
Данный текст имеет уровень читаемости: 5.87
Не знаю, хорошо это или плохо :) Имхо, в общем случае при написании текстов на русском языке, за исключением набитых терминами специальных текстов надо стремиться к стандартам русского литературного языка, формулы тут могут помочь лишь отчасти.
Данный текст имеет уровень читаемости: 5.87
Не знаю, хорошо это или плохо :) Имхо, в общем случае при написании текстов на русском языке, за исключением набитых терминами специальных текстов надо стремиться к стандартам русского литературного языка, формулы тут могут помочь лишь отчасти.
Я долго старался вычленить из статьи самый «мясной» кусок, более всего подходящий бы для выражения моего отношения к статье в целом и идее простого языка в частности, но по прошествии 10 минут бросил это уже очевидно бессмысленное занятие, и решил просто попытаться побудить читателей хабра прочитать всю статью по ссылке целиком.
Статья.
При этом сама идея использования формул для оценки читаемости текста — хороша и интересна, вот только, боюсь, их использование будет, как всегда, вывернуто наизнанку.
Статья.
При этом сама идея использования формул для оценки читаемости текста — хороша и интересна, вот только, боюсь, их использование будет, как всегда, вывернуто наизнанку.
Как бы решил предложенную задачу я (в конце концов — автор попросил обсуждения):
Собрать статистику по текстам каждой категории сложности. Дошкольное чтение, младшешкольное, старшешкольное, уровень ВУЗ'а (общая тематика) и уровень ВУЗ'а (специальная тематика — юриспруденция, экономика и т.д.). Под статистикой имеется ввиду — би-три-квадро-пента граммы — совместное использование слов в одной фразе.
Имея такую статистику, можно определить банальность текста. Текст банален, если слова, составляющие его фразы, встречаются в типичных комбинациях (соответствующие N-граммы имеют высокие веса). Тест небанален, если доля нетипичных комбинаций высока.
Тогда, уровень текста будет определяться первой категорией сложности, для которой этот текст банален.
Пример:
«У точек, бедных крошек, ни ручек нет, ни ножек. Как-же они, не пойму я, слипаются в прямую?» — небанально. Математические термины (точка, прямая) соседствуют с нематематическими (ручки и ножки). Уровень текста — сложный специальный математический.
«Геометрическое место точек на равном расстоянии от центра называется кругом.» — банально. Типичные комбинации терминов и устойчивые выражения (геометрическое место точек). Уровень текста — лёгкий специальный математический.
Собрать статистику по текстам каждой категории сложности. Дошкольное чтение, младшешкольное, старшешкольное, уровень ВУЗ'а (общая тематика) и уровень ВУЗ'а (специальная тематика — юриспруденция, экономика и т.д.). Под статистикой имеется ввиду — би-три-квадро-пента граммы — совместное использование слов в одной фразе.
Имея такую статистику, можно определить банальность текста. Текст банален, если слова, составляющие его фразы, встречаются в типичных комбинациях (соответствующие N-граммы имеют высокие веса). Тест небанален, если доля нетипичных комбинаций высока.
Тогда, уровень текста будет определяться первой категорией сложности, для которой этот текст банален.
Пример:
«У точек, бедных крошек, ни ручек нет, ни ножек. Как-же они, не пойму я, слипаются в прямую?» — небанально. Математические термины (точка, прямая) соседствуют с нематематическими (ручки и ножки). Уровень текста — сложный специальный математический.
«Геометрическое место точек на равном расстоянии от центра называется кругом.» — банально. Типичные комбинации терминов и устойчивые выражения (геометрическое место точек). Уровень текста — лёгкий специальный математический.
Как связана банальность и понятность?
Допустим «Уравнение, где сумма энных степеней двух целых чисел равна энной степени третьего числа, не имеет решений в целых ненулевых числах» — будет банальным выражением? А насколько оно будет понятным?
Допустим «Уравнение, где сумма энных степеней двух целых чисел равна энной степени третьего числа, не имеет решений в целых ненулевых числах» — будет банальным выражением? А насколько оно будет понятным?
будет банальным выражением? А насколько оно будет понятным?
Поскольку сильного ИИ до сих пор никто не сделал, техническими средствами определить «понятность» просто невозможно, так как нет определения «понятности». Банальность, или, другими словами, типичность текста — определить можно. Например, как я описал выше. Думается, что такой подход даст более приближённые к ожидаемым результаты разбора текста, хотя и будет более труден в реализации.
«Уравнение, где сумма энных степеней двух целых чисел равна энной степени третьего числа, не имеет решений в целых ненулевых числах»
Требуется доказать, что Уравнение, где сумма энных степеней двух целых чисел равна энной степени третьего числа, не имеет решений в целых ненулевых числах, при натуральном N > 1
В современных формулах можно использовать индекс цитируемости слов и фраз в интернете.
Чем чаще слово или фраза используется в интернете — тем оно, скорее всего, понятнее.
Чем чаще слово или фраза используется в интернете — тем оно, скорее всего, понятнее.
Очень давно, еще в школе, читал какой-то фантастический рассказ про машинку-переводчик смысла. Там были какие-то межпланетные дипломатические непонятки, а эта машинка сокращала пространные витиеватые многостраничные документы со всяческими экивоками до, к примеру, «отдавайте Кемъскую волость, а не то [несеръезная угроза]». Там даже был такой эпизод, когда надо было тянуть время, и была послана депеша, которую эта машинка сократила до «документ не содержит смысла».
Вроде бы лет пятнадцать назад кто-то пытался сделать похожую программу, работала она достаточно коряво, но все-таки…
Вроде бы лет пятнадцать назад кто-то пытался сделать похожую программу, работала она достаточно коряво, но все-таки…
Интересно, а почему нету алгоритмов на анализ «структурной сложности» предложений?
Может это я один такой, но в легальных документах мне бывает крайне трудно уловить кто кого чему обязывает, и при каких условиях. Т.е идет явное злоупотребление сложносочиненными и сложноподчиненными предложениями и всякими деепричастными оборотами. Я вижу это в ровной степени как в документах на английском, так и на русском языке. Мое мнение: чем проще структура, тем понятнее мысль.
Наверно, разобрать предложение по svo, subject verb object, ну и сколько их там в предложении, не должно быть уж очень сложно?
Может это я один такой, но в легальных документах мне бывает крайне трудно уловить кто кого чему обязывает, и при каких условиях. Т.е идет явное злоупотребление сложносочиненными и сложноподчиненными предложениями и всякими деепричастными оборотами. Я вижу это в ровной степени как в документах на английском, так и на русском языке. Мое мнение: чем проще структура, тем понятнее мысль.
Наверно, разобрать предложение по svo, subject verb object, ну и сколько их там в предложении, не должно быть уж очень сложно?
спасибо автору за интересное исследование.
Любой естественный язык нельзя так просто делить на язык «канцелярский» и интернет язык. Есть огромное количество жаргонов (к которому можно отнести т.наз. «канцелярский» язык, «блатной», «ученый» и т.д.), есть разговорный язык, есть литературный и т.д. Оценка сложности языка — очень многопарамерическая вещь и только военные могут так просто с ней расправиться, посчитав символы текста в разных вариациях. Мне кажется, что простота языка складывается из (как уже писали) частотности н-грамм (критерий частотности), покрывающих текст в данной области. Ну и не стоит забывать про эмоциональное воздействие (начиная с фоносемантики и заканчивая тональностью текста в целом).
Сложность и простота — это скорее не полярности на оценочной шкале, а взаимодополняющие параметры. Но полностью согласен, что эта тема еще мало разработана лингвистами (точнее в теории что-то есть, а практических наработок, руководства к действию почти нет), и тут есть над чем и глубоко подумать.
Любой естественный язык нельзя так просто делить на язык «канцелярский» и интернет язык. Есть огромное количество жаргонов (к которому можно отнести т.наз. «канцелярский» язык, «блатной», «ученый» и т.д.), есть разговорный язык, есть литературный и т.д. Оценка сложности языка — очень многопарамерическая вещь и только военные могут так просто с ней расправиться, посчитав символы текста в разных вариациях. Мне кажется, что простота языка складывается из (как уже писали) частотности н-грамм (критерий частотности), покрывающих текст в данной области. Ну и не стоит забывать про эмоциональное воздействие (начиная с фоносемантики и заканчивая тональностью текста в целом).
Сложность и простота — это скорее не полярности на оценочной шкале, а взаимодополняющие параметры. Но полностью согласен, что эта тема еще мало разработана лингвистами (точнее в теории что-то есть, а практических наработок, руководства к действию почти нет), и тут есть над чем и глубоко подумать.
Великое дело делаете, товарищ.
Что-то мне подсказывает, что исследования на эту тему уже давно проведены всякими филологами и лингвистами, только в интернетах их вряд ли найти. Как вариант можно поискать в отделе диссертаций РГБ.
Что-то мне подсказывает, что исследования на эту тему уже давно проведены всякими филологами и лингвистами, только в интернетах их вряд ли найти. Как вариант можно поискать в отделе диссертаций РГБ.
А вот второе направление — это то привело меня к тому прежде чем создавать словари понятности и инструкции по переписыванию сложных языков. И прежде чем стоит говорить с чиновниками о том что они говорят на жутком канцелярите. Прежде всего этого нужно сделать формулы оценки удобочитаемости для русского языка.
Это тест на тему внутри текста? Не читаемо же совсем… В первом предложении я даже не смог понять что именно надо добавить или убрать для получения верной смысловой конструкции. В последнем, мне кажется слово «этого» лишнее…
Что касается сути… Когда-то занимался этой темой. Есть готовые библиотеки синтаксического разбора текста. Прежде всего нужно начинать с них. Результатом обработки является древовидная иерархическая структура (например в формате xml). Когда предложение правильно разобрано, из него вполне свободно (а главное — вполне допускаю, что в достаточной степени автоматически) извлекается основная мысль, уточнения, дополнения и тп. В такой структуре уже можно экспериментировать с упрощением (в неструктурированном тексте гораздо сложнее определить уровень критичности замены того или иного слова на синоним). Я сейчас поищу примеры — где-то были…
Пока ссылка: www.asknet.ru/analytics/programms.htm#Утилиты лингвистического анализа текста (первое, что нашлось в поиске)
Кстати, неплохо было бы проверять на «понятность» самих слов.
Например предложение: «Верификация транзакции.» (которое может быть заголвком) оценивается сервисом в
Сильно сомневаюсь, что в 12 лет оба слова очень понятны. Я не буду даже говорить про столь замечательные слова как «клаузула» или «вализа». Может быть по ним оценивать еще и упомянутую в комментариях направленность текста? Не просто 1-3 курс ВУЗа, а еще, например, «Юридическая терминология»
Кстати, предложение «Проведение верификации транзакции.» оценивается уже
Например предложение: «Верификация транзакции.» (которое может быть заголвком) оценивается сервисом в
Данный текст имеет уровень читаемости: 8.89
Аудитория: 7 — 9-й класс (возраст примерно: 12-14 лет)
Сильно сомневаюсь, что в 12 лет оба слова очень понятны. Я не буду даже говорить про столь замечательные слова как «клаузула» или «вализа». Может быть по ним оценивать еще и упомянутую в комментариях направленность текста? Не просто 1-3 курс ВУЗа, а еще, например, «Юридическая терминология»
Кстати, предложение «Проведение верификации транзакции.» оценивается уже
Данный текст имеет уровень читаемости: 12.55
Аудитория: 1 — 3 курсы ВУЗа (возраст примерно: 17-19 лет)
а что может означать:
Данный текст имеет уровень читаемости: 0.05
Аудитория: неизвестно (0)
Если Вы его через ссылку отправляли, то текст мог неправильно считаться. Попробуйте его ввести через форму отправки текста.
Нет, я именно скопировал текст. Причём, другие показатели выглядят как обычно.
Здравствуйте, скажите, пожалуйста, что за процент сложных слов. На основе какого списка они выбираются?
Sign up to leave a comment.
Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов