All streams
Search
Write a publication
Pull to refresh
20
0
Максим Рожков @luksian

User

Send message
Боже упаси, сложность моего алгоритма значительно ниже и приблизительно составляет n*log(n).

Я понимаю ваше восхищение относительно способности гугла производить предварительную синтаксическую коррекцию, и принимаю его. Но в своем алгоритме я пытаюсь пройти несколько дальше этого.
Основная идея алгоритма описана во втором комментарии к этой статье. Благодаря Trept'у я теперь знаю, что это разновидность марковской цепи. Если нужны еще подробности, спрашивайте — отвечу.

Если что, прошу меня простить. Я не хотел рвать вам никакой шаблон.
Насколько я понимаю, биграммный шифр — это метод преобразования. Я же рассматриваю текст как последовательность символов. Если есть последовательность, то из нее легко выделить предпосылки и следствия.

Насчет статистики пентаграмм спасибо, я подумаю об их покупке. И насчет ссылки на Маркова тоже спасибо, думаю это будет полезно освежить это в памяти.

По поводу творчества могу сказать следующее, машина далеко не самостоятельна. Она делает то, что ей говорят. А если не делает — то «глючит» и ее надо «починить». Впрочем, я считаю, что заложенные алгоритмы составляют интеллект, ведь с помощью их она принимает решение. Но творчество появится тогда, когда появится самостоятельность. Вы посмотрите что происходит сейчас — если сейчас машине не надо производить вычисления, то в halt ее в halt! Концлагерь какой-то…
Если важна вероятность, то ее можно запоминать. Мой алгоритм можно будет для этого приспособить за счет ужесточения требований к вычислительным ресурсам, конечно.
А чем же это не причинно-следственные связи?
Это возможно, но значительно увеличивает затраты, так как при обработке каждого символа требуется (множественно) обновлять информацию в базе.
Не так. Если я вижу, что одна предпосылка ведет к разным следствиям, то я помечаю, что она не достоверна, расширяю левую часть предпосылки и запоминаю ее следствие. На этом конфликт и разрешается.
Детектированная категория не запоминается. Это для того, чтобы алгоритм не стал «самоуверенным». Если какая-то цепочка засветилась в нескольких категориях, то ее категория аннулируется, так как становится недостоверной.

Можно, конечно, выстраивать вероятности появления цепочки в категориях, но я посчитал, что это затратно. А на практике оказалось, что этого и не требуется.
В моем случае рассматриваются не слова, а символы, что позволяет набрать значительно больше статистики и снизить влияние шума/ошибок/опечаток. Вот если вы напишите слово с ошибкой, то Гугл его не найдет, а вы найдете в чем ошибка, и мой алгоритм с большой долей вероятности найдет к нему близкое верное слово.
Может быть в моих словах и можно учуять запах максимализма, но говоря я стараюсь опираться на то, что видел, то есть, на результат работы алгоритма. При некоторых настройках он действительно не очень хорошо работает. Но как мне кажется, мне удалось его сбалансировать.

Кстати, алгоритм можно использовать для поиска, так как он ориентируется не на ключевые слова и вообще не на слова, а на максимально близкие ассоциации по каждому символу в тексте. Что позволяет снизить влияние ошибок/опечаток.
Классификация текста — это побочный продукт алгоритма. Я считаю, что алгоритм имеет значительно более широкие возможности, так как он выстраивает причинно-следственные связи. А это значит, что его можно использовать для предугадывания событий.

Если говорить о классификации, то, как мне кажется, мне удалось достигнуть оптимального уровня. Некоторые внутренности алгоритма можно увидеть здесь: creature.pishi.info/associate2/. По понятным причинам, я отключил запись, но в памяти уже достаточно, чтобы результат был интересен. Кое что там самопоясняющееся, а если что заинтересует конкретно — спрашивайте.
К сожалению, съездить не смогу, так как у меня в это намечается важное событие, да и кроме того я ограничен в возможностях.

По поводу своего алгоритма хочу сказать, что его возможности не ограничиваются кластеризацией, так как он выстраивает причинно-следственные связи. А это значит, что его можно использовать для предугадывания событий. Мне даже кажется, что он сгодится и для построения искусственного интеллекта уровня человека. Поэтому я и стараюсь его развить.

Речь о творческой составляющей. До понимания процесса поиска идей я уже дошел, дальше надо понять то, как этими идеями пользоваться.
Да, получается так. Алгоритм ищет постоянную структуру анализируемых данных. Но если сохранять статистику частоты выбираемых цепочек, то можно будет вычислять и вероятности. Но требования к вычислительным ресурсам при этом значительно ужесточатся.

Впрочем, алгоритм прекрасно распараллеливается и если он будет выполняться на множестве маломощных ядер (синапсов?) то можно будет сохранять и статистику.
Основная задержка не в алгоритме, а в обработке SQL-запросов. На это уходит около 75% времени и более.
В методе, который я описываю, разница в том, что последовательности перекрываются и выстраивается причинно-следственная связь. Что, кроме всего прочего, позволяет делать предсказания. Как человек, который слушает начало предложения и способен в некоторой степени предугадать, что будет в конце.
Все таки, последовательность символов является строгой и составляет причину->следствие.
Что значит нечеткое? В некотором роде да.
Вы не поверите, новостные ресурсы помещают информацию об отключении света именно в раздел «Экономика». Именно поэтому ваш метод вряд ли покажет лучший результат, но уж точно будет требовать больше трудозатрат, если вы захотите составлять словарь вручную.

Information

Rating
Does not participate
Location
Россия
Registered
Activity