Комментарии 21
В общем-то по правилам такой текст нужно оформлять в виде ссылки.
+1
Спасибо, интересно было сравнить, но слов по Вашей ссылке (Частотный словарь художественной литературы) даже меньше, чем у меня с 12.5Mb и непонятно куда таки дели союз «и» :)
Распределение тоже не показано (видимо, гуманитарии не умеют строить графики :)).
Остальной частотный список мне показался тоже сомнительным, потому что он как раз заметно зависет от типа текста (что я и показываю).
И у меня не только русская классическая литература, а довольно разнообразный худлит 19-20 века.
Немасштабируемый характер семантической сети на корпусе английских текстов (а не только закон Ципфа) — это результат последних 10-15 лет (согласно Барабаши во всяком случае).
Распределение тоже не показано (видимо, гуманитарии не умеют строить графики :)).
Остальной частотный список мне показался тоже сомнительным, потому что он как раз заметно зависет от типа текста (что я и показываю).
И у меня не только русская классическая литература, а довольно разнообразный худлит 19-20 века.
Немасштабируемый характер семантической сети на корпусе английских текстов (а не только закон Ципфа) — это результат последних 10-15 лет (согласно Барабаши во всяком случае).
+1
Ну так всё-таки, к чему вы планируете придти в итоге? Как использовать информацию?
+1
Ссылку, которую я привел в пример лишь первое, что попалось при поиске, в основном, я имел в виду «бумажные» словари. Не могу вспомнить автора только. Возможно, Вам может помочь сравнение результатов и источников анализа.
+1
Да, спасибо. Но источники анализа как раз интереснее, а в таких словарях их часто нет. Давно попадалось что-то по Пушкину, но это совсем узкая специфика, без эвристики.
Наверно, это не очень заметно по тому, как скомпонована подача информации в моей статье, но основной её результат — это немасштабируемый характер семантической сети корпуса текстов и уникальность профилей текстов (распределение частотности слов) в зависимости от их типов и авторства.
Что касается моих целей — выводы там в конце сформулированы. Первое, что мне хотелось бы попробовать — это провести сравнительный анализ по языкам — пока что известно, что те же коэффициенты частотности γ в указанной степенной зависимости, в т.ч. для семантической сети — разные для разных языков, а какие стилистические различия могут при возникать — тоже занимательно.
Можно ещё смоделировать «обучение» на основе полученных результатов генератора «умных» фраз.
Наверно, это не очень заметно по тому, как скомпонована подача информации в моей статье, но основной её результат — это немасштабируемый характер семантической сети корпуса текстов и уникальность профилей текстов (распределение частотности слов) в зависимости от их типов и авторства.
Что касается моих целей — выводы там в конце сформулированы. Первое, что мне хотелось бы попробовать — это провести сравнительный анализ по языкам — пока что известно, что те же коэффициенты частотности γ в указанной степенной зависимости, в т.ч. для семантической сети — разные для разных языков, а какие стилистические различия могут при возникать — тоже занимательно.
Можно ещё смоделировать «обучение» на основе полученных результатов генератора «умных» фраз.
+1
Такие графики делают в логарифмической шкале.
+2
не совсем понятно причом тут искуственный интеллект.
но наврядли велосипед получился убедительнее, чем имеющиеся модели.
но наврядли велосипед получился убедительнее, чем имеющиеся модели.
+1
Понимание того, что семантическая структура речи представляет собой немасштабируемую сеть может использоваться для генерации естественной речи.
+1
я возможно чтото пропустил,
но весь анализ в статье чисто статистический.
и результаты его давно известны всем, кому было интересно и не лень зайти на гугл.
но весь анализ в статье чисто статистический.
и результаты его давно известны всем, кому было интересно и не лень зайти на гугл.
+1
Дайте, пожалуйста, ссылку на статью с графиками о немасштабируемом характере семантической сети на корпусе русских текстов. Интересно сравнить для разных типов текстов — наверняка у них другой их набор.
+1
этим занимались и занимаются «институт русского языка»
и С.А.Шаров, составитель современного частотного словаря.
и С.А.Шаров, составитель современного частотного словаря.
+1
Спасибо, ссылку на частотность слов Шарова мне дали выше. И в словаре у Шарова довольно странные результаты: беднее, чем даже у меня на 12.5Mb к тому же закон Ципфа не выполняется (только что проверено в QtiPlot).
Непонятно, по какому набору текстов делался анализ.
К тому же меня речь не только и не столько про частотность слов.
И Вы не ответили на мой вопрос.
Непонятно, по какому набору текстов делался анализ.
К тому же меня речь не только и не столько про частотность слов.
И Вы не ответили на мой вопрос.
+1
я не настолько глубоко в теме, чтобы сходу дать ссылки.
меня интересовал только частотный словарь.
корпус на котором всё это строилось подробно описан на сайтах,
с %ным соотношением жанров.
меня интересовал только частотный словарь.
корпус на котором всё это строилось подробно описан на сайтах,
с %ным соотношением жанров.
+1
У того, что Вы указали — 5 тыс слов до 3 раз попаданий — это очень мало. На современной лексике нет даже слов «звёздный» или «шахматный» или прилагательного «остальной» (встречемость наряду с таким словом, как, скажем, «бурный» — которое у них есть)…
Даже и не знаю, как можно было получить такой результат… Слишком плохое соответствие закону Ципфа тоже не внушает доверия.
Даже и не знаю, как можно было получить такой результат… Слишком плохое соответствие закону Ципфа тоже не внушает доверия.
0
Вы сами-то понимаете что пишете?!
на 142114 разных слов в нём, чаще всего встречается союз «и» — 83575 раз (слова берутся во всех словоформах). И это больше, чем половина!
Т.е. в ваших текстах союз «и» через каждое слово, а местами даже и подряд несколько «и»?
на 142114 разных слов в нём, чаще всего встречается союз «и» — 83575 раз (слова берутся во всех словоформах). И это больше, чем половина!
Т.е. в ваших текстах союз «и» через каждое слово, а местами даже и подряд несколько «и»?
0
Ещё раз, на 142114 __разных__ слов в нём, чаще всего встречается союз «и»
0
А глубокая мысль про половину? ;-)
0
Отражает грамматическую структуру языка.
Сравните с английским: www.english-for-students.com/Frequently-Used-Words.html (или вот: grammar.about.com/od/words/a/100freqused07.htm)
Или французским: eduscol.education.fr/cid47916/liste-des-mots-classee-par-frequence-decroissante.html
(или: french.about.com/od/vocabulary/ss/mostcommonwords.htm)
Если вдруг внепланетный разум :) хочет заранее узнать принцип образования времён в глаголах или существование артиклей в данном незнакомом ему языке, то ему достаточно посмотреть на список из первых 5 наиболее часто встречаемых слов, и даже первого слова, наверно, достаточно для ответа на второй вопрос.
Т.е., это некий классификационный признак.
Сравните с английским: www.english-for-students.com/Frequently-Used-Words.html (или вот: grammar.about.com/od/words/a/100freqused07.htm)
Или французским: eduscol.education.fr/cid47916/liste-des-mots-classee-par-frequence-decroissante.html
(или: french.about.com/od/vocabulary/ss/mostcommonwords.htm)
Если вдруг внепланетный разум :) хочет заранее узнать принцип образования времён в глаголах или существование артиклей в данном незнакомом ему языке, то ему достаточно посмотреть на список из первых 5 наиболее часто встречаемых слов, и даже первого слова, наверно, достаточно для ответа на второй вопрос.
Т.е., это некий классификационный признак.
0
Зарегистрируйтесь на Хабре , чтобы оставить комментарий
Результаты и перспективы небольшого анализа русских текстов