Pull to refresh

Comments 42

Идея вычисления «коэффициента сложности» кажется недоработанной без учёта тематики текста.
В опросе у вас врачи, юристы и чиновники/экономисты. Но у них же действительно другие определения, другие формулировки, и упрощать их до общетематических странно.
Так практика в мире как раз в сторону упрощения любых формулировок до простых. Например, очень многие юридические тексты сильно избыточны. А некоторые банки уже начинают использовать простые термины в описании услуг и условий их оказания.
Я боюсь, у нас в «сложных» сферах слишком много заимствованных слов, к таким текстам неприменимы общие стандарты.
Потому и упомянул про учёт тематики в расчётах.

Понятные условия, законы и прочее — это вообще отдельная тема. Если б под каждым шматком текста в законах было «Если кратко, то выше написано об этом: %пара_предложений%», в правовой сфере ориентировалось бы гораздо больше людей.
Я боюсь, у нас в «сложных» сферах слишком много заимствованных слов, к таким текстам неприменимы общие стандарты.
Почему неприменимы? Как раз стандартный подсчет и показывает, что специализированные тексты — сложные. Это действительно так — они понятны только специалистам.
Надо ли упрощать — уже отдельный вопрос, особого отношения к методике расчета сложности не имеющий.
Ну просто сравнивать нужно однородные по тематике документы
«Понятность» интересно проверить на литературе разных жанров и разных веков.
Так вот же — есть формула, есть сервис.
Да вот навскидку несколько абзацев из «Капитанской дочки» нашего всего:
Данный текст имеет уровень читаемости: 5.87
Не знаю, хорошо это или плохо :) Имхо, в общем случае при написании текстов на русском языке, за исключением набитых терминами специальных текстов надо стремиться к стандартам русского литературного языка, формулы тут могут помочь лишь отчасти.
Безусловно, формулы не решают всех задач. Я и надеюсь что найдутся те кто используют другие подходы:)
Я долго старался вычленить из статьи самый «мясной» кусок, более всего подходящий бы для выражения моего отношения к статье в целом и идее простого языка в частности, но по прошествии 10 минут бросил это уже очевидно бессмысленное занятие, и решил просто попытаться побудить читателей хабра прочитать всю статью по ссылке целиком.

Статья.

При этом сама идея использования формул для оценки читаемости текста — хороша и интересна, вот только, боюсь, их использование будет, как всегда, вывернуто наизнанку.
Как бы решил предложенную задачу я (в конце концов — автор попросил обсуждения):

Собрать статистику по текстам каждой категории сложности. Дошкольное чтение, младшешкольное, старшешкольное, уровень ВУЗ'а (общая тематика) и уровень ВУЗ'а (специальная тематика — юриспруденция, экономика и т.д.). Под статистикой имеется ввиду — би-три-квадро-пента граммы — совместное использование слов в одной фразе.

Имея такую статистику, можно определить банальность текста. Текст банален, если слова, составляющие его фразы, встречаются в типичных комбинациях (соответствующие N-граммы имеют высокие веса). Тест небанален, если доля нетипичных комбинаций высока.

Тогда, уровень текста будет определяться первой категорией сложности, для которой этот текст банален.

Пример:

«У точек, бедных крошек, ни ручек нет, ни ножек. Как-же они, не пойму я, слипаются в прямую?» — небанально. Математические термины (точка, прямая) соседствуют с нематематическими (ручки и ножки). Уровень текста — сложный специальный математический.

«Геометрическое место точек на равном расстоянии от центра называется кругом.» — банально. Типичные комбинации терминов и устойчивые выражения (геометрическое место точек). Уровень текста — лёгкий специальный математический.

Как связана банальность и понятность?
Допустим «Уравнение, где сумма энных степеней двух целых чисел равна энной степени третьего числа, не имеет решений в целых ненулевых числах» — будет банальным выражением? А насколько оно будет понятным?
будет банальным выражением? А насколько оно будет понятным?


Поскольку сильного ИИ до сих пор никто не сделал, техническими средствами определить «понятность» просто невозможно, так как нет определения «понятности». Банальность, или, другими словами, типичность текста — определить можно. Например, как я описал выше. Думается, что такой подход даст более приближённые к ожидаемым результаты разбора текста, хотя и будет более труден в реализации.

«Уравнение, где сумма энных степеней двух целых чисел равна энной степени третьего числа, не имеет решений в целых ненулевых числах»


Требуется доказать, что Уравнение, где сумма энных степеней двух целых чисел равна энной степени третьего числа, не имеет решений в целых ненулевых числах, при натуральном N > 1

В современных формулах можно использовать индекс цитируемости слов и фраз в интернете.
Чем чаще слово или фраза используется в интернете — тем оно, скорее всего, понятнее.
предлоги, союзы и т.п. обычно выкидываются при анализе.
Очень давно, еще в школе, читал какой-то фантастический рассказ про машинку-переводчик смысла. Там были какие-то межпланетные дипломатические непонятки, а эта машинка сокращала пространные витиеватые многостраничные документы со всяческими экивоками до, к примеру, «отдавайте Кемъскую волость, а не то [несеръезная угроза]». Там даже был такой эпизод, когда надо было тянуть время, и была послана депеша, которую эта машинка сократила до «документ не содержит смысла».

Вроде бы лет пятнадцать назад кто-то пытался сделать похожую программу, работала она достаточно коряво, но все-таки…
Да, это вообще мечта и много было сделано суммаризаторов текстов. Для английского языка есть много таких алгоритмов — разного уровня качества.
Мне кажется это было у Азимова в «Основании» во время переговоров Основания с каким-то осколком Империи.
Интересно, а почему нету алгоритмов на анализ «структурной сложности» предложений?

Может это я один такой, но в легальных документах мне бывает крайне трудно уловить кто кого чему обязывает, и при каких условиях. Т.е идет явное злоупотребление сложносочиненными и сложноподчиненными предложениями и всякими деепричастными оборотами. Я вижу это в ровной степени как в документах на английском, так и на русском языке. Мое мнение: чем проще структура, тем понятнее мысль.

Наверно, разобрать предложение по svo, subject verb object, ну и сколько их там в предложении, не должно быть уж очень сложно?
Наверное дело в том что мало библиотек с открытым кодом которые это позволяют? Я думаю что это интересное направление, если кто-то покажет пример как это можно было бы сделать — было бы очень интересно посмотреть на результаты.
спасибо автору за интересное исследование.
Любой естественный язык нельзя так просто делить на язык «канцелярский» и интернет язык. Есть огромное количество жаргонов (к которому можно отнести т.наз. «канцелярский» язык, «блатной», «ученый» и т.д.), есть разговорный язык, есть литературный и т.д. Оценка сложности языка — очень многопарамерическая вещь и только военные могут так просто с ней расправиться, посчитав символы текста в разных вариациях. Мне кажется, что простота языка складывается из (как уже писали) частотности н-грамм (критерий частотности), покрывающих текст в данной области. Ну и не стоит забывать про эмоциональное воздействие (начиная с фоносемантики и заканчивая тональностью текста в целом).
Сложность и простота — это скорее не полярности на оценочной шкале, а взаимодополняющие параметры. Но полностью согласен, что эта тема еще мало разработана лингвистами (точнее в теории что-то есть, а практических наработок, руководства к действию почти нет), и тут есть над чем и глубоко подумать.
Конечно очень хочется найти что-то универсальное, но вполне возможно что каждая тема, действительно, требует свой подход и свои алгоритмы и решения. Тут нехватает тех кто бы делал это на практике и я поэтому всех призываю к участию в конкурсе Apps4Russia по номинации понятности языка.
Великое дело делаете, товарищ.
Что-то мне подсказывает, что исследования на эту тему уже давно проведены всякими филологами и лингвистами, только в интернетах их вряд ли найти. Как вариант можно поискать в отделе диссертаций РГБ.
Я искал в базах ВАКа и многих других, нашел только одно единственное, неподробное исследование по адаптации формулы Флэша. Но ничего интересного там не оказалась. По этой теме в России действительно вакуум.
Очень странно. Я попинаю знакомых филологов, может они что дельное посоветуют.
А вот второе направление — это то привело меня к тому прежде чем создавать словари понятности и инструкции по переписыванию сложных языков. И прежде чем стоит говорить с чиновниками о том что они говорят на жутком канцелярите. Прежде всего этого нужно сделать формулы оценки удобочитаемости для русского языка.


Это тест на тему внутри текста? Не читаемо же совсем… В первом предложении я даже не смог понять что именно надо добавить или убрать для получения верной смысловой конструкции. В последнем, мне кажется слово «этого» лишнее…

Что касается сути… Когда-то занимался этой темой. Есть готовые библиотеки синтаксического разбора текста. Прежде всего нужно начинать с них. Результатом обработки является древовидная иерархическая структура (например в формате xml). Когда предложение правильно разобрано, из него вполне свободно (а главное — вполне допускаю, что в достаточной степени автоматически) извлекается основная мысль, уточнения, дополнения и тп. В такой структуре уже можно экспериментировать с упрощением (в неструктурированном тексте гораздо сложнее определить уровень критичности замены того или иного слова на синоним). Я сейчас поищу примеры — где-то были…

Пока ссылка: www.asknet.ru/analytics/programms.htm#Утилиты лингвистического анализа текста (первое, что нашлось в поиске)
Слово «этого» действительно лишнее. Не буду ссылаться на тест, пусть будет моя невнимательность.

Вот интересно получится ли так упрощать хоть как-то автоматизировано
Кстати, неплохо было бы проверять на «понятность» самих слов.
Например предложение: «Верификация транзакции.» (которое может быть заголвком) оценивается сервисом в

Данный текст имеет уровень читаемости: 8.89

Аудитория: 7 — 9-й класс (возраст примерно: 12-14 лет)

Сильно сомневаюсь, что в 12 лет оба слова очень понятны. Я не буду даже говорить про столь замечательные слова как «клаузула» или «вализа». Может быть по ним оценивать еще и упомянутую в комментариях направленность текста? Не просто 1-3 курс ВУЗа, а еще, например, «Юридическая терминология»

Кстати, предложение «Проведение верификации транзакции.» оценивается уже
Данный текст имеет уровень читаемости: 12.55

Аудитория: 1 — 3 курсы ВУЗа (возраст примерно: 17-19 лет)
Для нормальной оценки сервису нужно не меньше 100 слов. А оптимально около 30-50 предложений.
а что может означать:
Данный текст имеет уровень читаемости: 0.05

Аудитория: неизвестно (0)

Если Вы его через ссылку отправляли, то текст мог неправильно считаться. Попробуйте его ввести через форму отправки текста.
Нет, я именно скопировал текст. Причём, другие показатели выглядят как обычно.
Тогда могу лишь предположить что текст настолько мал что метрики по нему считаются, но формулы выдают отрицательный результат.
Если это естественный, а не придуманный текст, то это, конечно, нужно перепроверять. Пришлите его, пожалуйста, или напишите тут комментарием.
Здравствуйте, скажите, пожалуйста, что за процент сложных слов. На основе какого списка они выбираются?
Попалась такая книга (Валгина Н.С. «Теория текста»), может пригодится, хотя формализуемых параметров там вероятно нет.
Sign up to leave a comment.