@lightcaster Mar 24 2010 at 15:25

Генератор текста на основе триграмм (python)

10 min

39K

Python *

+30

Comments 35

@spmbt Mar 24 2010 at 15:45

> Биграммы давали бы плохой результата, в то время как 4-граммы требовали бы существенно больше ресурсов.

Зато, тем качественнее будут тексты поискового спама.

@lightcaster Mar 24 2010 at 15:50

Может быть. Я слабо знаком с поисковой оптимизацией. Но есть вероятность что они будут рассматриваться как дубли, так как текст становиться ооочень похож на исходный. В этом случае нужно использовать разные корпуса по разным тематикам.

@Alik_Kirillovich Mar 26 2010 at 15:40

Кстати, у Яндекса есть статья о том, как они с этим борются:

«Поиск неестественных текстов», Евгений Гречников, Глеб Гусев, Андрей Кустарев, Андрей Райгородский.

@vit1251 Mar 26 2010 at 18:53

Ну вообщем-то в Интернете и так сейчас особо искать нечего. Да и зная историю Вы я думаю спрогнозируете
что будет с княжествами (левыми сайтами) и почему появяться государства (фирменные порталы при универах
фирмах и т.п.). Явные тому примеры базы знаний при Microsoft, FreeBSD про линукс кстати не знаю есть или нет?
Одним словом скоро весь интернет перейдет в вид сообществ, социальных сетей и баз знаний… ИМХО!

@gigimon Mar 24 2010 at 17:17

Достойно! Прочитал, попробовал :)

@lightcaster Mar 24 2010 at 19:31

Спасибо )

@AlexWinner Mar 24 2010 at 17:18

Тексты интересные получаются.
Особенно понравилось: «Сноска 49 философ, сноска 130 княгиня такая-то сноска 131» и «История своим предметом не хотеть принять меня за щеку».

@kmike Mar 24 2010 at 17:50

Нет желания написать модуль дизамбигуации (разрешения неоднозначности) к морфологическому анализатору pymorphy?)

Например, в фразе «нет вилки» — «вилки» — это существительное ед.ч., в родительном падеже. А в «Положил вилки на стол» — это существительное во мн.ч. и в винительном падеже.

По сути, тут тоже нужно составить словарь вероятностей — вероятность встретить грам. форму в зависимости от окружения слова, все на довольно большом корпусе. В окружении, думаю, стоит тоже учитывать не сами слова, а их грам. формы и части речи, в каком-то упрощенном варианте даже.

Несмотря на то, что, по сути, анализатор будет тренироваться сам на себе, думаю, подход должен сработать, т.к. не у всех слов есть те же проблемы с неоднозначностью, что и у слова «вилка» — и тут вполне можно обойтись без синтаксического анализа. Могут быть какие-то тонкости, но по сути — те же биграммы, триграммы и тд.

@kmike Mar 24 2010 at 17:55

В идеале, конечно, тренировать не на самом себе, а на отдельно размеченном корпусе (http://www.ruscorpora.ru/), но там нет оффлайн-доступа, только ограниченный и неподходящий для таких целей online-поиск, поэтому вряд ли выйдет.

@lightcaster Mar 24 2010 at 20:01

А на счет ruscorpora.ru, я честно говоря не понимаю смысл проекта. Почему бы не открыть корпус, если таковой имеется. Тем более называется национальным и создается на государственные деньги.

@kmike Mar 24 2010 at 20:32

«Какие-либо оффлайновые версии корпуса пока недоступны, но работа в этом направлении ведётся.»

Национальный корпус русского языка
© 2003–2010

Я думаю, что этим сайтом занимаются очень уважаемые люди, и делают они хорошее дело, но заточен он под нужны лингвистов (не компьютерных), и оффлайн-доступ для этого не так востребован.

@lightcaster Mar 24 2010 at 19:56

Думаю, снятие неоднозначности не очень подходит для уровня морфологии. Это что-то ближе к синтаксическому анализу, где может уйти большая часть омонимии. К примеру — «краска стекла по стене» и «в машине нет лобового стекла». Здесь выбор виден из контекста. То есть если писать дизамбигуатор только на основе n-граммной статистики, то он будет неточный и очень сильно зависимый от корпуса.

Вообще, мне не лень его написать :), но я на вскидку не вижу чем этот модуль будет полезен.

@kmike Mar 24 2010 at 20:48

Хорошая бумага по теме: www.aot.ru/docs/RusCorporaHMM.htm

Пишут, что снятие неоднозначности очень хорошо ложится именно на уровень морфологии (т.к. на уровне синтаксиса ее делать значительно сложнее), и что вероятностный подход при этом обеспечивает отличную точность.

Модуль будет полезен хм… везде) Хотя бы отсортировать результаты разбора слова по вероятности, чтобы менее вероятные в данном контексте не учитывать. Сейчас берется первая попавшаяся форма слова, когда нужна только 1 форма (например, для склонятора).

@lightcaster Mar 25 2010 at 16:41

Может быть обрисуете как вы видите этот модуль, желательно по почте ( at gmail.com)? Может быть что-то придумаем.

Вообще, я как-то писал морфологический анализатор, так же на основе словаря аот. Но в основе у меня лежал трансдьюсер (finite state transducer), базу не использовал. У этого подхода есть плюсы, но есть и минусы. Если интересно — могу подробней по почте.

@kmike Mar 25 2010 at 18:38

Ага, так и понял, судя по сайту. Поэтому и рискнул предложить) В почту сейчас отпишусь.

@dzmitryc Mar 24 2010 at 22:22

Мне кажется или Вы описали реализацию генератора текстов на основе цепей Маркова?

@lightcaster Mar 25 2010 at 10:41

Вобщем, да. Цепь маркова, сеть Байеса, как угодно.
Лично мне проще воспринимать подобные модели просто как направленный взвешенный граф, где дуги маркированны вероятностями перехода на следующее состояние.

@michurin Mar 25 2010 at 10:06

А какая в вас версия питона?
У меня 2.5.2 и в ней не работают конструкции типа
sum_, freq_ =,
rnd = uniform(, sum_)
для переносимости можно поправить на
sum_, freq_ = 0, 0
rnd = uniform(0, sum_)
тогда всё работает на 2.5

@lightcaster Mar 25 2010 at 10:48

Писал все это на 2.5.
Но дело похоже в другом: когда «красил» код, похоже, некоторые символы пропали. На этом месте должны были стоять нули:

def unirand(seq):
sum_, freq_ = 0, 0
for item, freq in seq:
sum_ += freq
rnd = uniform(0, sum_)
for token, freq in seq:
freq_ += freq
if rnd < freq_:
return token

Ту же статью можно глянуть тут: linguis.ru/art/trigram, там корректно.

Кстати, может кто знает, как раскрасить питоновский код на хабре? Встроенными средствами у меня не получилось.

@michurin Mar 25 2010 at 11:45

Тогда уж ещё позанудствую. У вас sum_ в unirand в конце концов всегда равно 1.0 ,-) Это же сумма всех вероятностей.

@lightcaster Mar 25 2010 at 16:36

Вы правы. Рад что внимательно смотрите код :). Сумма тут всегда равна 1. Похоже я взял этот метод из своего кода, который допускает любое значение частоты.
Здесь же можно использовать просто рандом.

Надо сказать, писал я этот код больше года назад. Сейчас вижу, что функция unirand могла бы быть более прозрачна.

@kashey Mar 25 2010 at 12:24

ваше благородие? Ничто, — прибавил он, как казалось ростову. Тоже и они тотчас же притворился изумленным, ошеломленным, выпучил глаза и долго, облокотившись на руку, молодой и красивой, белой кисеи и розовых чубука.

Вообще вроде как это называется «цепь Маркова третьего порядка»

@Nakilon Mar 26 2010 at 13:49

Такие вещи нынче, как то, что можно было назвать «генерирование текста по статистическому анализу биграмм и триграмм слов», что и так уже понятно всем, реализовать в рамках одной лабы второго курса и забыть на след. день, теперь расписывается в целую статью и висит на главной хабра.

@lightcaster Mar 26 2010 at 13:57

Эм… да, алгоритм простой. Висел в личном блоге, получил пару сообщений с рекомендацией перенести сюда. Вот и перенес :).

@Nakilon Mar 26 2010 at 14:28

Ну раз рекомендуют, видимо хотят это видеть… об этом я с некоторым пренебрежением и писал.
А лично вас — автора — не осуждаю )

@OmeZ Mar 26 2010 at 14:10

дорвейщики уже сели за компьютеры )

@OmeZ Mar 26 2010 at 14:11

и усилено учат питон )

@reality Mar 26 2010 at 15:53

дорвейщики давно уже это проходили ;)

@delaf Mar 26 2010 at 18:44

уникальность текста 69%

@Vii Mar 27 2010 at 21:39

А правильно ли я понимаю, что подобным образом работают vesna.yandex.ru и другие «loremipsum-генераторы»?

@lightcaster Mar 29 2010 at 12:47

Похоже, основа та же. Наврятли там использовалась какая-либо грамматика на правилах.
Но текст относительно «чистый» получается. Скорее всего там еще какие-то хитрые алгоритмы поверх идут.

ps но могу и ошибаться

@kolen Mar 30 2010 at 10:24

По-моему, на яндексе составленная вручную контекстно-свободная грамматика.

@stoune Mar 29 2010 at 10:58

Вы Natural Language Toolkit (nltk.org) смотрели?
Рутинные задачи по разбору на слова я бы отдал этой библиотеке, тем более что делать она будет это в терминах предметной области.

@lightcaster Mar 29 2010 at 12:44

Да, смотрел. Но nltk здесь — как из пушки по воробьям. В данном случае даже морфология не используется — обычная тренировка на корпусе (даже без сглаживания) и подбор слов по вероятности. Может быть, через время напишу «правильный генератор», где буду использовать и морфологию, и синтаксис и, возможно, какие-то элементы семантики.

@stoune Mar 29 2010 at 13:04

Задачи имеют тенденцию со временем усложнятся. Для меня плюс nltk что я буду сосредоточен на конечной задаче, а не на низкоуровневых деталях.