У того, что Вы указали — 5 тыс слов до 3 раз попаданий — это очень мало. На современной лексике нет даже слов «звёздный» или «шахматный» или прилагательного «остальной» (встречемость наряду с таким словом, как, скажем, «бурный» — которое у них есть)…
Даже и не знаю, как можно было получить такой результат… Слишком плохое соответствие закону Ципфа тоже не внушает доверия.
Спасибо, ссылку на частотность слов Шарова мне дали выше. И в словаре у Шарова довольно странные результаты: беднее, чем даже у меня на 12.5Mb к тому же закон Ципфа не выполняется (только что проверено в QtiPlot).
Непонятно, по какому набору текстов делался анализ.
К тому же меня речь не только и не столько про частотность слов.
Да, спасибо. Но источники анализа как раз интереснее, а в таких словарях их часто нет. Давно попадалось что-то по Пушкину, но это совсем узкая специфика, без эвристики.
Наверно, это не очень заметно по тому, как скомпонована подача информации в моей статье, но основной её результат — это немасштабируемый характер семантической сети корпуса текстов и уникальность профилей текстов (распределение частотности слов) в зависимости от их типов и авторства.
Что касается моих целей — выводы там в конце сформулированы. Первое, что мне хотелось бы попробовать — это провести сравнительный анализ по языкам — пока что известно, что те же коэффициенты частотности γ в указанной степенной зависимости, в т.ч. для семантической сети — разные для разных языков, а какие стилистические различия могут при возникать — тоже занимательно.
Можно ещё смоделировать «обучение» на основе полученных результатов генератора «умных» фраз.
Дайте, пожалуйста, ссылку на статью с графиками о немасштабируемом характере семантической сети на корпусе русских текстов. Интересно сравнить для разных типов текстов — наверняка у них другой их набор.
Спасибо, интересно было сравнить, но слов по Вашей ссылке (Частотный словарь художественной литературы) даже меньше, чем у меня с 12.5Mb и непонятно куда таки дели союз «и» :)
Распределение тоже не показано (видимо, гуманитарии не умеют строить графики :)).
Остальной частотный список мне показался тоже сомнительным, потому что он как раз заметно зависет от типа текста (что я и показываю).
И у меня не только русская классическая литература, а довольно разнообразный худлит 19-20 века.
Немасштабируемый характер семантической сети на корпусе английских текстов (а не только закон Ципфа) — это результат последних 10-15 лет (согласно Барабаши во всяком случае).
Даже и не знаю, как можно было получить такой результат… Слишком плохое соответствие закону Ципфа тоже не внушает доверия.
Непонятно, по какому набору текстов делался анализ.
К тому же меня речь не только и не столько про частотность слов.
И Вы не ответили на мой вопрос.
Наверно, это не очень заметно по тому, как скомпонована подача информации в моей статье, но основной её результат — это немасштабируемый характер семантической сети корпуса текстов и уникальность профилей текстов (распределение частотности слов) в зависимости от их типов и авторства.
Что касается моих целей — выводы там в конце сформулированы. Первое, что мне хотелось бы попробовать — это провести сравнительный анализ по языкам — пока что известно, что те же коэффициенты частотности γ в указанной степенной зависимости, в т.ч. для семантической сети — разные для разных языков, а какие стилистические различия могут при возникать — тоже занимательно.
Можно ещё смоделировать «обучение» на основе полученных результатов генератора «умных» фраз.
Распределение тоже не показано (видимо, гуманитарии не умеют строить графики :)).
Остальной частотный список мне показался тоже сомнительным, потому что он как раз заметно зависет от типа текста (что я и показываю).
И у меня не только русская классическая литература, а довольно разнообразный худлит 19-20 века.
Немасштабируемый характер семантической сети на корпусе английских текстов (а не только закон Ципфа) — это результат последних 10-15 лет (согласно Барабаши во всяком случае).