А что, если усовершенствовать и сделать подобное для анализа постов/комментариев хабраюзеров?
Ввел имя, отметил галочкой посты или комментарии или всё вместе, и получил всё сразу или даже в виде графика по времени.
Интерестно было бы проанилизировать тектсы из разных областей, мне кажется средний размер слова будет меняться в зависимости от тематики, причем самый большой может оказаться у юридических текстов.
Стало интересно, и решил для сравнения проанализировать пару книг из современной бульварной литературы.
Дарья Донцова:
Дама с коготками — Всего слов: 148785, Средняя длина слова: 4.72
Дантисты тоже плачут — Всего слов: 140221, Средняя длина слова: 4.76
Эта горькая сладкая месть — Всего слов: 128249, Средняя длина слова: 4.84
Вероятно, существует зависимость между средней длиной слова и качеством текста.
Я немного другой смысл вкладывал в слово «качество». Укаждого автора свой словарный запас, у Пушкина, насколько я помню со школьной скамьи, около 22 тысяч слов, мы же используем гораздо меньше слов, и, в основном, используем более короткие слова.
Я вот о чем подумал. Вряд ли существует подобный критерий. Ни по средней длине слова, ни по словарному запасу. Вот например у Пушкина словарный запас выше чем у других писателей, но секрет его успеха вовсе не в этом. Большой словарный запас — это всего лишь инструмент и им еще надо уметь пользоваться. Можно быть ходячей энциклопедией, иметь огромный словарный запас, но не уметь связать двух слов.
Да, но я это к тому, что такие программки в реальности существуют уже (сам писал), и, кстати, активно используются в различных областях. Теперь жду появления примера здесь, раз «тема» пошла :)
Вы бы посмотрели, какую аналитику произведений сделали люди для сайта Фантлаб…
В свое время и я занимался анализом текстов: распознавание авторства, статистика (частотная таблица слов, длин предложений, слов, букв и т.п.). Не считаю, что вы тут уж прямо супервещь создали.
Средняя длина слова у разных авторов