Как стать автором
Обновить

Комментарии 21

Сейчас попробую…
Классическая литература уже давно была проанализирована и на частотность и на длинность словоформ. Есть куча словарей частотности. Вот, например.
А какова цель Вашего исследования?
Спасибо, интересно было сравнить, но слов по Вашей ссылке (Частотный словарь художественной литературы) даже меньше, чем у меня с 12.5Mb и непонятно куда таки дели союз «и» :)
Распределение тоже не показано (видимо, гуманитарии не умеют строить графики :)).
Остальной частотный список мне показался тоже сомнительным, потому что он как раз заметно зависет от типа текста (что я и показываю).
И у меня не только русская классическая литература, а довольно разнообразный худлит 19-20 века.

Немасштабируемый характер семантической сети на корпусе английских текстов (а не только закон Ципфа) — это результат последних 10-15 лет (согласно Барабаши во всяком случае).
Ну так всё-таки, к чему вы планируете придти в итоге? Как использовать информацию?
Ссылку, которую я привел в пример лишь первое, что попалось при поиске, в основном, я имел в виду «бумажные» словари. Не могу вспомнить автора только. Возможно, Вам может помочь сравнение результатов и источников анализа.
Да, спасибо. Но источники анализа как раз интереснее, а в таких словарях их часто нет. Давно попадалось что-то по Пушкину, но это совсем узкая специфика, без эвристики.
Наверно, это не очень заметно по тому, как скомпонована подача информации в моей статье, но основной её результат — это немасштабируемый характер семантической сети корпуса текстов и уникальность профилей текстов (распределение частотности слов) в зависимости от их типов и авторства.
Что касается моих целей — выводы там в конце сформулированы. Первое, что мне хотелось бы попробовать — это провести сравнительный анализ по языкам — пока что известно, что те же коэффициенты частотности γ в указанной степенной зависимости, в т.ч. для семантической сети — разные для разных языков, а какие стилистические различия могут при возникать — тоже занимательно.
Можно ещё смоделировать «обучение» на основе полученных результатов генератора «умных» фраз.
Такие графики делают в логарифмической шкале.
Конечно, если тип распределения заранее известен. Графики в логарифмической шкале приведены по ссылке.
не совсем понятно причом тут искуственный интеллект.
но наврядли велосипед получился убедительнее, чем имеющиеся модели.
Понимание того, что семантическая структура речи представляет собой немасштабируемую сеть может использоваться для генерации естественной речи.
я возможно чтото пропустил,
но весь анализ в статье чисто статистический.

и результаты его давно известны всем, кому было интересно и не лень зайти на гугл.
Дайте, пожалуйста, ссылку на статью с графиками о немасштабируемом характере семантической сети на корпусе русских текстов. Интересно сравнить для разных типов текстов — наверняка у них другой их набор.
этим занимались и занимаются «институт русского языка»
и С.А.Шаров, составитель современного частотного словаря.
Спасибо, ссылку на частотность слов Шарова мне дали выше. И в словаре у Шарова довольно странные результаты: беднее, чем даже у меня на 12.5Mb к тому же закон Ципфа не выполняется (только что проверено в QtiPlot).
Непонятно, по какому набору текстов делался анализ.
К тому же меня речь не только и не столько про частотность слов.

И Вы не ответили на мой вопрос.
я не настолько глубоко в теме, чтобы сходу дать ссылки.
меня интересовал только частотный словарь.

корпус на котором всё это строилось подробно описан на сайтах,
с %ным соотношением жанров.
У того, что Вы указали — 5 тыс слов до 3 раз попаданий — это очень мало. На современной лексике нет даже слов «звёздный» или «шахматный» или прилагательного «остальной» (встречемость наряду с таким словом, как, скажем, «бурный» — которое у них есть)…
Даже и не знаю, как можно было получить такой результат… Слишком плохое соответствие закону Ципфа тоже не внушает доверия.
Вы сами-то понимаете что пишете?!

на 142114 разных слов в нём, чаще всего встречается союз «и» — 83575 раз (слова берутся во всех словоформах). И это больше, чем половина!

Т.е. в ваших текстах союз «и» через каждое слово, а местами даже и подряд несколько «и»?
Ещё раз, на 142114 __разных__ слов в нём, чаще всего встречается союз «и»
А глубокая мысль про половину? ;-)
Отражает грамматическую структуру языка.
Сравните с английским: www.english-for-students.com/Frequently-Used-Words.html (или вот: grammar.about.com/od/words/a/100freqused07.htm)
Или французским: eduscol.education.fr/cid47916/liste-des-mots-classee-par-frequence-decroissante.html
(или: french.about.com/od/vocabulary/ss/mostcommonwords.htm)

Если вдруг внепланетный разум :) хочет заранее узнать принцип образования времён в глаголах или существование артиклей в данном незнакомом ему языке, то ему достаточно посмотреть на список из первых 5 наиболее часто встречаемых слов, и даже первого слова, наверно, достаточно для ответа на второй вопрос.
Т.е., это некий классификационный признак.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории