Comments / Profile of luksian / Habr

Максим Рожков @luksian

User

ProfileArticles11PostsNewsComments72

Автоматический анализ текста без модераторов

luksian May 12 2011 at 01:40

Боже упаси, сложность моего алгоритма значительно ниже и приблизительно составляет n*log(n).

Я понимаю ваше восхищение относительно способности гугла производить предварительную синтаксическую коррекцию, и принимаю его. Но в своем алгоритме я пытаюсь пройти несколько дальше этого.

0

Автоматический анализ текста без модераторов

luksian May 12 2011 at 01:13

Основная идея алгоритма описана во втором комментарии к этой статье. Благодаря Trept'у я теперь знаю, что это разновидность марковской цепи. Если нужны еще подробности, спрашивайте — отвечу.

Если что, прошу меня простить. Я не хотел рвать вам никакой шаблон.

+1

Автоматический анализ текста без модераторов

luksian May 12 2011 at 01:00

Насколько я понимаю, биграммный шифр — это метод преобразования. Я же рассматриваю текст как последовательность символов. Если есть последовательность, то из нее легко выделить предпосылки и следствия.

Насчет статистики пентаграмм спасибо, я подумаю об их покупке. И насчет ссылки на Маркова тоже спасибо, думаю это будет полезно освежить это в памяти.

По поводу творчества могу сказать следующее, машина далеко не самостоятельна. Она делает то, что ей говорят. А если не делает — то «глючит» и ее надо «починить». Впрочем, я считаю, что заложенные алгоритмы составляют интеллект, ведь с помощью их она принимает решение. Но творчество появится тогда, когда появится самостоятельность. Вы посмотрите что происходит сейчас — если сейчас машине не надо производить вычисления, то в halt ее в halt! Концлагерь какой-то…

0

Автоматический анализ текста без модераторов

luksian May 12 2011 at 00:39

Если важна вероятность, то ее можно запоминать. Мой алгоритм можно будет для этого приспособить за счет ужесточения требований к вычислительным ресурсам, конечно.

0

Автоматический анализ текста без модераторов

luksian May 11 2011 at 10:03

А чем же это не причинно-следственные связи?

0

Автоматический анализ текста без модераторов

luksian May 11 2011 at 10:01

Это возможно, но значительно увеличивает затраты, так как при обработке каждого символа требуется (множественно) обновлять информацию в базе.

0

Автоматический анализ текста без модераторов

luksian May 11 2011 at 09:59

Не так. Если я вижу, что одна предпосылка ведет к разным следствиям, то я помечаю, что она не достоверна, расширяю левую часть предпосылки и запоминаю ее следствие. На этом конфликт и разрешается.

0

Автоматический анализ текста без модераторов

luksian May 11 2011 at 09:56

Детектированная категория не запоминается. Это для того, чтобы алгоритм не стал «самоуверенным». Если какая-то цепочка засветилась в нескольких категориях, то ее категория аннулируется, так как становится недостоверной.

Можно, конечно, выстраивать вероятности появления цепочки в категориях, но я посчитал, что это затратно. А на практике оказалось, что этого и не требуется.

0

Автоматический анализ текста без модераторов

luksian May 11 2011 at 09:51

Кеширую.

+3

Автоматический анализ текста без модераторов

luksian May 11 2011 at 09:49

В моем случае рассматриваются не слова, а символы, что позволяет набрать значительно больше статистики и снизить влияние шума/ошибок/опечаток. Вот если вы напишите слово с ошибкой, то Гугл его не найдет, а вы найдете в чем ошибка, и мой алгоритм с большой долей вероятности найдет к нему близкое верное слово.

-1

Автоматический анализ текста без модераторов

luksian May 11 2011 at 09:46

Может быть в моих словах и можно учуять запах максимализма, но говоря я стараюсь опираться на то, что видел, то есть, на результат работы алгоритма. При некоторых настройках он действительно не очень хорошо работает. Но как мне кажется, мне удалось его сбалансировать.

Кстати, алгоритм можно использовать для поиска, так как он ориентируется не на ключевые слова и вообще не на слова, а на максимально близкие ассоциации по каждому символу в тексте. Что позволяет снизить влияние ошибок/опечаток.

-2

Автоматический анализ текста без модераторов

luksian May 11 2011 at 09:38

Классификация текста — это побочный продукт алгоритма. Я считаю, что алгоритм имеет значительно более широкие возможности, так как он выстраивает причинно-следственные связи. А это значит, что его можно использовать для предугадывания событий.

Если говорить о классификации, то, как мне кажется, мне удалось достигнуть оптимального уровня. Некоторые внутренности алгоритма можно увидеть здесь: creature.pishi.info/associate2/. По понятным причинам, я отключил запись, но в памяти уже достаточно, чтобы результат был интересен. Кое что там самопоясняющееся, а если что заинтересует конкретно — спрашивайте.

0

Автоматический анализ текста без модераторов

luksian May 11 2011 at 09:18

К сожалению, съездить не смогу, так как у меня в это намечается важное событие, да и кроме того я ограничен в возможностях.

По поводу своего алгоритма хочу сказать, что его возможности не ограничиваются кластеризацией, так как он выстраивает причинно-следственные связи. А это значит, что его можно использовать для предугадывания событий. Мне даже кажется, что он сгодится и для построения искусственного интеллекта уровня человека. Поэтому я и стараюсь его развить.

Речь о творческой составляющей. До понимания процесса поиска идей я уже дошел, дальше надо понять то, как этими идеями пользоваться.

0

Автоматический анализ текста без модераторов

luksian May 11 2011 at 09:10

Да, это так.

0

Автоматический анализ текста без модераторов

luksian May 11 2011 at 09:08

Да, получается так. Алгоритм ищет постоянную структуру анализируемых данных. Но если сохранять статистику частоты выбираемых цепочек, то можно будет вычислять и вероятности. Но требования к вычислительным ресурсам при этом значительно ужесточатся.

Впрочем, алгоритм прекрасно распараллеливается и если он будет выполняться на множестве маломощных ядер (синапсов?) то можно будет сохранять и статистику.

0

Автоматический анализ текста без модераторов

luksian May 11 2011 at 08:58

Основная задержка не в алгоритме, а в обработке SQL-запросов. На это уходит около 75% времени и более.

0

Автоматическое реферирование статей на русском языке

luksian May 11 2011 at 07:52

В методе, который я описываю, разница в том, что последовательности перекрываются и выстраивается причинно-следственная связь. Что, кроме всего прочего, позволяет делать предсказания. Как человек, который слушает начало предложения и способен в некоторой степени предугадать, что будет в конце.

0

Автоматический анализ текста без модераторов

luksian May 11 2011 at 07:38

Все таки, последовательность символов является строгой и составляет причину->следствие.

0

Автоматический анализ текста без модераторов

luksian May 11 2011 at 07:36

Что значит нечеткое? В некотором роде да.

0

Автоматический анализ текста без модераторов

luksian May 11 2011 at 07:33

Вы не поверите, новостные ресурсы помещают информацию об отключении света именно в раздел «Экономика». Именно поэтому ваш метод вряд ли покажет лучший результат, но уж точно будет требовать больше трудозатрат, если вы захотите составлять словарь вручную.

0

3