Pull to refresh

Comments 21

А что, если усовершенствовать и сделать подобное для анализа постов/комментариев хабраюзеров?
Ввел имя, отметил галочкой посты или комментарии или всё вместе, и получил всё сразу или даже в виде графика по времени.
Я думаю все дело в волшебных пузырьках предлогах. Кто-то использует чаще, а кто-то реже.
Поддерживаю, я бы добавил в скрипт стоп-слова или не считал слова длиной 1-2 символа. Думаю, результат изменится.
Зачем? Предлоги — тоже слова, не надо их дискриминировать!!!
В общем, у всех примерно одинаково в пределах статистической погрешности.
Моя жена сказала так: «Чем старше, тем короче»
Интерестно было бы проанилизировать тектсы из разных областей, мне кажется средний размер слова будет меняться в зависимости от тематики, причем самый большой может оказаться у юридических текстов.
Арбитражный процессуальный кодекс Российской Федерации.
Всего слов: 51601
Средняя длина слова: 6.93

>> cамый большой может оказаться у юридических текстов.

Скорее в справочниках по органической химии или фармакологии.
Стало интересно, и решил для сравнения проанализировать пару книг из современной бульварной литературы.
Дарья Донцова:
Дама с коготками — Всего слов: 148785, Средняя длина слова: 4.72
Дантисты тоже плачут — Всего слов: 140221, Средняя длина слова: 4.76
Эта горькая сладкая месть — Всего слов: 128249, Средняя длина слова: 4.84

Вероятно, существует зависимость между средней длиной слова и качеством текста.
UFO just landed and posted this here
Я немного другой смысл вкладывал в слово «качество». Укаждого автора свой словарный запас, у Пушкина, насколько я помню со школьной скамьи, около 22 тысяч слов, мы же используем гораздо меньше слов, и, в основном, используем более короткие слова.
UFO just landed and posted this here
UFO just landed and posted this here
Я вот о чем подумал. Вряд ли существует подобный критерий. Ни по средней длине слова, ни по словарному запасу. Вот например у Пушкина словарный запас выше чем у других писателей, но секрет его успеха вовсе не в этом. Большой словарный запас — это всего лишь инструмент и им еще надо уметь пользоваться. Можно быть ходячей энциклопедией, иметь огромный словарный запас, но не уметь связать двух слов.
а я всё жду, когда наконец появится топик с «цепями Маркова» и нам предложат сгенерированный машиной текст, стилистически подобный авторскому :)
Да, но я это к тому, что такие программки в реальности существуют уже (сам писал), и, кстати, активно используются в различных областях. Теперь жду появления примера здесь, раз «тема» пошла :)
Вы бы посмотрели, какую аналитику произведений сделали люди для сайта Фантлаб…

В свое время и я занимался анализом текстов: распознавание авторства, статистика (частотная таблица слов, длин предложений, слов, букв и т.п.). Не считаю, что вы тут уж прямо супервещь создали.
ма-аленький нюанс на будущее — сортировочку бы…
Sign up to leave a comment.

Articles