Comments 21
А что, если усовершенствовать и сделать подобное для анализа постов/комментариев хабраюзеров?
Ввел имя, отметил галочкой посты или комментарии или всё вместе, и получил всё сразу или даже в виде графика по времени.
Ввел имя, отметил галочкой посты или комментарии или всё вместе, и получил всё сразу или даже в виде графика по времени.
Я думаю все дело в волшебных пузырьках предлогах. Кто-то использует чаще, а кто-то реже.
В общем, у всех примерно одинаково в пределах статистической погрешности.
Интерестно было бы проанилизировать тектсы из разных областей, мне кажется средний размер слова будет меняться в зависимости от тематики, причем самый большой может оказаться у юридических текстов.
Стало интересно, и решил для сравнения проанализировать пару книг из современной бульварной литературы.
Дарья Донцова:
Дама с коготками — Всего слов: 148785, Средняя длина слова: 4.72
Дантисты тоже плачут — Всего слов: 140221, Средняя длина слова: 4.76
Эта горькая сладкая месть — Всего слов: 128249, Средняя длина слова: 4.84
Вероятно, существует зависимость между средней длиной слова и качеством текста.
Дарья Донцова:
Дама с коготками — Всего слов: 148785, Средняя длина слова: 4.72
Дантисты тоже плачут — Всего слов: 140221, Средняя длина слова: 4.76
Эта горькая сладкая месть — Всего слов: 128249, Средняя длина слова: 4.84
Вероятно, существует зависимость между средней длиной слова и качеством текста.
UFO just landed and posted this here
UFO just landed and posted this here
Я вот о чем подумал. Вряд ли существует подобный критерий. Ни по средней длине слова, ни по словарному запасу. Вот например у Пушкина словарный запас выше чем у других писателей, но секрет его успеха вовсе не в этом. Большой словарный запас — это всего лишь инструмент и им еще надо уметь пользоваться. Можно быть ходячей энциклопедией, иметь огромный словарный запас, но не уметь связать двух слов.
а я всё жду, когда наконец появится топик с «цепями Маркова» и нам предложат сгенерированный машиной текст, стилистически подобный авторскому :)
Никаких полезных выводов из простых средних значений сделать не получится. Взгляните хотя бы на этот пример — habrahabr.ru/blogs/statistics/91128/#habracut
Вы бы посмотрели, какую аналитику произведений сделали люди для сайта Фантлаб…
В свое время и я занимался анализом текстов: распознавание авторства, статистика (частотная таблица слов, длин предложений, слов, букв и т.п.). Не считаю, что вы тут уж прямо супервещь создали.
В свое время и я занимался анализом текстов: распознавание авторства, статистика (частотная таблица слов, длин предложений, слов, букв и т.п.). Не считаю, что вы тут уж прямо супервещь создали.
ма-аленький нюанс на будущее — сортировочку бы…
Sign up to leave a comment.
Средняя длина слова у разных авторов