Pull to refresh
4

User

1
Subscribers
Send message
Ещё раз, на 142114 __разных__ слов в нём, чаще всего встречается союз «и»
У того, что Вы указали — 5 тыс слов до 3 раз попаданий — это очень мало. На современной лексике нет даже слов «звёздный» или «шахматный» или прилагательного «остальной» (встречемость наряду с таким словом, как, скажем, «бурный» — которое у них есть)…
Даже и не знаю, как можно было получить такой результат… Слишком плохое соответствие закону Ципфа тоже не внушает доверия.
Спасибо, ссылку на частотность слов Шарова мне дали выше. И в словаре у Шарова довольно странные результаты: беднее, чем даже у меня на 12.5Mb к тому же закон Ципфа не выполняется (только что проверено в QtiPlot).
Непонятно, по какому набору текстов делался анализ.
К тому же меня речь не только и не столько про частотность слов.

И Вы не ответили на мой вопрос.
Да, спасибо. Но источники анализа как раз интереснее, а в таких словарях их часто нет. Давно попадалось что-то по Пушкину, но это совсем узкая специфика, без эвристики.
Наверно, это не очень заметно по тому, как скомпонована подача информации в моей статье, но основной её результат — это немасштабируемый характер семантической сети корпуса текстов и уникальность профилей текстов (распределение частотности слов) в зависимости от их типов и авторства.
Что касается моих целей — выводы там в конце сформулированы. Первое, что мне хотелось бы попробовать — это провести сравнительный анализ по языкам — пока что известно, что те же коэффициенты частотности γ в указанной степенной зависимости, в т.ч. для семантической сети — разные для разных языков, а какие стилистические различия могут при возникать — тоже занимательно.
Можно ещё смоделировать «обучение» на основе полученных результатов генератора «умных» фраз.
Дайте, пожалуйста, ссылку на статью с графиками о немасштабируемом характере семантической сети на корпусе русских текстов. Интересно сравнить для разных типов текстов — наверняка у них другой их набор.
Понимание того, что семантическая структура речи представляет собой немасштабируемую сеть может использоваться для генерации естественной речи.
Спасибо, интересно было сравнить, но слов по Вашей ссылке (Частотный словарь художественной литературы) даже меньше, чем у меня с 12.5Mb и непонятно куда таки дели союз «и» :)
Распределение тоже не показано (видимо, гуманитарии не умеют строить графики :)).
Остальной частотный список мне показался тоже сомнительным, потому что он как раз заметно зависет от типа текста (что я и показываю).
И у меня не только русская классическая литература, а довольно разнообразный худлит 19-20 века.

Немасштабируемый характер семантической сети на корпусе английских текстов (а не только закон Ципфа) — это результат последних 10-15 лет (согласно Барабаши во всяком случае).
Конечно, если тип распределения заранее известен. Графики в логарифмической шкале приведены по ссылке.

Information

Rating
Does not participate
Registered
Activity