Комментарии / Профиль yuk / Хабр

Пользователь

ПрофильСтатьи4ПостыНовостиКомментарии110

Автоматический анализ текста без модераторов

yuk 11 мая 2011 в 10:14

по идее ваш алгоритм не будет работать на темах в которых разное соотношение одних и тех же слов. Т.е. вы удаляете все неоднозначности и оставляете только уникальные стопроцентные свойства последовательности — это конечно сильно экономит память. Но таким образом категория c текстами B A A A A B и A B B B B A не будут отличатся так как у них одинаковые последовательности — отличие только в их вероятностях.

Автоматический анализ текста без модераторов

yuk 11 мая 2011 в 09:51

Ну я бы конечно сказал что весь искусственный интеллект на данный момент, это сложение и умножение над числами. И самая простая вещь такая как сбор статистики слов дает поразительные результаты классификации — предсказания! (я о Наивном баесе). Но скептицизм конечно есть относительно этого алгоритма, так как по той же статистике новое придумывают очень редко.

Автоматический анализ текста без модераторов

yuk 11 мая 2011 в 09:31

Не очень понятна схема разрешения конфликтов. Если у вы видите что у вас две последовательности символов ведут к разным предложениям вы расширяете(левую часть) их до тех пор пока конфликт не решится? Можно подробнее как вы это делаете?

Автоматический анализ текста без модераторов

yuk 11 мая 2011 в 08:16

Да вы правильно поняли. Бывает и в новостях опечатки, хотя редко конечно. Поэтому как раз словари(или классификация по словарям) для новостей должны работать лучше, а для твитов хуже.

Автоматический анализ текста без модераторов

yuk 11 мая 2011 в 08:13

Ну иногда вводят понятие вероятности. Т.е. после последовательности аб->г c вероятностью 0.4 аб->c с вероятностью 0.6. У вас получается все цепочки имеют вероятность 1.

Автоматический анализ текста без модераторов

yuk 11 мая 2011 в 08:09

Ну сложность думаю одинаковая, что обучатся на последовательностях слов длинной, что на последовательностях символов. Точность заранее предсказать сложно, но как правило на шумах как раз со словарями работает система хуже.
О этих языковых моделях можно почитать здесь alias-i.com/lingpipe/demos/tutorial/classify/read-me.html.

Автоматический анализ текста без модераторов

yuk 11 мая 2011 в 08:00

Можно ли сказать так что вы храните для каждого текста его непротиворечивые(удаляя конфликты по вышеописанному алгоритму) цепочки и маркеры(в которых хранится категория). И видя новый текст вы понимаете его категорию и дубликат ли он по ближайшему тексту из базы?

Автоматическое реферирование статей на русском языке

yuk 11 мая 2011 в 07:26

Интересно, ваш подход не похож на что-то стандартное. Хотя мне кажется это классификация по последовательности символов.

Нейронные сети и распознавание символов

yuk 10 мая 2011 в 09:11

ГА — вообще ничего не гарантирует. имитация отжига — это метод, который в некоторых случаях избегает лок. минимумов, но тоже ничего не гарантирует.

Нейронные сети и распознавание символов

yuk 8 мая 2011 в 18:57

Сейчас более модно использовать Condition Random Field их преимущество перед нейронными сетями в том что они сходятся к глобальному минимуму, и так же могу обучатся для предсказания любой структуры. НС редко успешно применяется на практике.

Главный мобильный разработчик Facebook покинул компанию

yuk 8 мая 2011 в 13:08

Совершенно согласен, у самого была подобная ситуация.
1. Платили выше среднего по рынку для senior developer.
2. При кризисе не уменьшали зарплату.
3. Свободный график, с 12 до 19.
4. Работа по созданию поисковика с семантическим анализом текста т.е. достаточно интересно.
5. Все получалось в срок, почти без стрессов.

Но через пару лет, это ужасно надоело, по описанным вами причинам. Полгода пришлось искать что нибудь более менее сравнимое, не по интересности, а по другим критериям, как только нашлось уволился в хороших отношениях с компанией.

Русская морфология, основанная на памяти

yuk 7 мая 2011 в 16:40

Я ссылку нашел, мой вопрос был почему нет GermanLuceneMorphology — теперь понял, спасибо.
Но допустим я напишу код разбивки(spell chkerом) на слова. Сложно ли будет расширить эту библиотеку на поддержку немецкого для элементарных слов.

Русская морфология, основанная на памяти

yuk 7 мая 2011 в 13:42

Здесь есть ссылка на Lucene библиотеки.
А где можно выкачать оригинал с aot.ru?
Почему нет немецкой библиотеки, если она указанна на АОТ.

Автоматическое реферирование статей на русском языке

yuk 6 мая 2011 в 17:53

Кто хотел API — теперь оно есть. Возвращает список выделенных предложений, ключевых слов и действий в виде JSON списков, таким образом их можно выделять в своем GUI.

Автоматическое реферирование статей на русском языке

yuk 6 мая 2011 в 16:38

сделал JSON API, так что можно попробовать.

Автоматическое реферирование статей на русском языке

yuk 6 мая 2011 в 07:37

Ну в качестве попытки вырезать куски предложений там есть «ключевые фразы» и «ключевые действия» — это выделенные в тексте комбинации существительных и глаголов — а затем тот же алгоритм реферирования. А насчет реферирования относительно словосочетания, это несложно сделать — надо в коде сказать что вот эти предложения априори в 2-3 раза важнее других — планирую сделать.

Автоматическое реферирование статей на русском языке

yuk 5 мая 2011 в 19:45

Это честно — добавил.

Автоматическое реферирование статей на русском языке

yuk 5 мая 2011 в 19:22

Я использую Java SDK. О том как хорошие люди интегрировали словари АОТ с явой написанно здесь habrahabr.ru/blogs/algorithm/105854/

Автоматическое реферирование статей на русском языке

yuk 5 мая 2011 в 14:42

Думаю это не сложно.

Автоматическое реферирование статей на русском языке

yuk 5 мая 2011 в 14:41

Можно почитать вот это www.olap.ru/basic/refer.asp пункт «Составление выдержек» — это самое близкое к тому что тут сделано. А вобще описание на русском LexRank я не находил. самое простое описание в википедии по той ссылке что в статье.

3 4 5 6