Comments / Profile of wij / Habr

@wij

User

Subscribers

ProfileArticles3PostsNewsComments49

Результаты и перспективы небольшого анализа русских текстов

wij Jan 23 2010 at 15:24

Ещё раз, на 142114 __разных__ слов в нём, чаще всего встречается союз «и»

Результаты и перспективы небольшого анализа русских текстов

wij Jan 21 2010 at 18:41

У того, что Вы указали — 5 тыс слов до 3 раз попаданий — это очень мало. На современной лексике нет даже слов «звёздный» или «шахматный» или прилагательного «остальной» (встречемость наряду с таким словом, как, скажем, «бурный» — которое у них есть)…
Даже и не знаю, как можно было получить такой результат… Слишком плохое соответствие закону Ципфа тоже не внушает доверия.

Результаты и перспективы небольшого анализа русских текстов

wij Jan 21 2010 at 18:06

Спасибо, ссылку на частотность слов Шарова мне дали выше. И в словаре у Шарова довольно странные результаты: беднее, чем даже у меня на 12.5Mb к тому же закон Ципфа не выполняется (только что проверено в QtiPlot).
Непонятно, по какому набору текстов делался анализ.
К тому же меня речь не только и не столько про частотность слов.

И Вы не ответили на мой вопрос.

Результаты и перспективы небольшого анализа русских текстов

wij Jan 21 2010 at 17:49

Да, спасибо. Но источники анализа как раз интереснее, а в таких словарях их часто нет. Давно попадалось что-то по Пушкину, но это совсем узкая специфика, без эвристики.
Наверно, это не очень заметно по тому, как скомпонована подача информации в моей статье, но основной её результат — это немасштабируемый характер семантической сети корпуса текстов и уникальность профилей текстов (распределение частотности слов) в зависимости от их типов и авторства.
Что касается моих целей — выводы там в конце сформулированы. Первое, что мне хотелось бы попробовать — это провести сравнительный анализ по языкам — пока что известно, что те же коэффициенты частотности γ в указанной степенной зависимости, в т.ч. для семантической сети — разные для разных языков, а какие стилистические различия могут при возникать — тоже занимательно.
Можно ещё смоделировать «обучение» на основе полученных результатов генератора «умных» фраз.

Результаты и перспективы небольшого анализа русских текстов

wij Jan 21 2010 at 17:39

Дайте, пожалуйста, ссылку на статью с графиками о немасштабируемом характере семантической сети на корпусе русских текстов. Интересно сравнить для разных типов текстов — наверняка у них другой их набор.

Результаты и перспективы небольшого анализа русских текстов

wij Jan 21 2010 at 17:15

Понимание того, что семантическая структура речи представляет собой немасштабируемую сеть может использоваться для генерации естественной речи.

Результаты и перспективы небольшого анализа русских текстов

wij Jan 21 2010 at 17:13

Спасибо, интересно было сравнить, но слов по Вашей ссылке (Частотный словарь художественной литературы) даже меньше, чем у меня с 12.5Mb и непонятно куда таки дели союз «и» :)
Распределение тоже не показано (видимо, гуманитарии не умеют строить графики :)).
Остальной частотный список мне показался тоже сомнительным, потому что он как раз заметно зависет от типа текста (что я и показываю).
И у меня не только русская классическая литература, а довольно разнообразный худлит 19-20 века.

Немасштабируемый характер семантической сети на корпусе английских текстов (а не только закон Ципфа) — это результат последних 10-15 лет (согласно Барабаши во всяком случае).

Результаты и перспективы небольшого анализа русских текстов

wij Jan 21 2010 at 17:06

Конечно, если тип распределения заранее известен. Графики в логарифмической шкале приведены по ссылке.

Результаты и перспективы небольшого анализа русских текстов

wij Jan 21 2010 at 15:28

Сейчас попробую…

1 2