по идее ваш алгоритм не будет работать на темах в которых разное соотношение одних и тех же слов. Т.е. вы удаляете все неоднозначности и оставляете только уникальные стопроцентные свойства последовательности — это конечно сильно экономит память. Но таким образом категория c текстами B A A A A B и A B B B B A не будут отличатся так как у них одинаковые последовательности — отличие только в их вероятностях.
Ну я бы конечно сказал что весь искусственный интеллект на данный момент, это сложение и умножение над числами. И самая простая вещь такая как сбор статистики слов дает поразительные результаты классификации — предсказания! (я о Наивном баесе). Но скептицизм конечно есть относительно этого алгоритма, так как по той же статистике новое придумывают очень редко.
Не очень понятна схема разрешения конфликтов. Если у вы видите что у вас две последовательности символов ведут к разным предложениям вы расширяете(левую часть) их до тех пор пока конфликт не решится? Можно подробнее как вы это делаете?
Да вы правильно поняли. Бывает и в новостях опечатки, хотя редко конечно. Поэтому как раз словари(или классификация по словарям) для новостей должны работать лучше, а для твитов хуже.
Ну иногда вводят понятие вероятности. Т.е. после последовательности аб->г c вероятностью 0.4 аб->c с вероятностью 0.6. У вас получается все цепочки имеют вероятность 1.
Ну сложность думаю одинаковая, что обучатся на последовательностях слов длинной, что на последовательностях символов. Точность заранее предсказать сложно, но как правило на шумах как раз со словарями работает система хуже.
О этих языковых моделях можно почитать здесь alias-i.com/lingpipe/demos/tutorial/classify/read-me.html.
Можно ли сказать так что вы храните для каждого текста его непротиворечивые(удаляя конфликты по вышеописанному алгоритму) цепочки и маркеры(в которых хранится категория). И видя новый текст вы понимаете его категорию и дубликат ли он по ближайшему тексту из базы?
Сейчас более модно использовать Condition Random Field их преимущество перед нейронными сетями в том что они сходятся к глобальному минимуму, и так же могу обучатся для предсказания любой структуры. НС редко успешно применяется на практике.
Совершенно согласен, у самого была подобная ситуация.
1. Платили выше среднего по рынку для senior developer.
2. При кризисе не уменьшали зарплату.
3. Свободный график, с 12 до 19.
4. Работа по созданию поисковика с семантическим анализом текста т.е. достаточно интересно.
5. Все получалось в срок, почти без стрессов.
Но через пару лет, это ужасно надоело, по описанным вами причинам. Полгода пришлось искать что нибудь более менее сравнимое, не по интересности, а по другим критериям, как только нашлось уволился в хороших отношениях с компанией.
Я ссылку нашел, мой вопрос был почему нет GermanLuceneMorphology — теперь понял, спасибо.
Но допустим я напишу код разбивки(spell chkerом) на слова. Сложно ли будет расширить эту библиотеку на поддержку немецкого для элементарных слов.
Кто хотел API — теперь оно есть. Возвращает список выделенных предложений, ключевых слов и действий в виде JSON списков, таким образом их можно выделять в своем GUI.
Ну в качестве попытки вырезать куски предложений там есть «ключевые фразы» и «ключевые действия» — это выделенные в тексте комбинации существительных и глаголов — а затем тот же алгоритм реферирования. А насчет реферирования относительно словосочетания, это несложно сделать — надо в коде сказать что вот эти предложения априори в 2-3 раза важнее других — планирую сделать.
Можно почитать вот это www.olap.ru/basic/refer.asp пункт «Составление выдержек» — это самое близкое к тому что тут сделано. А вобще описание на русском LexRank я не находил. самое простое описание в википедии по той ссылке что в статье.
О этих языковых моделях можно почитать здесь alias-i.com/lingpipe/demos/tutorial/classify/read-me.html.
1. Платили выше среднего по рынку для senior developer.
2. При кризисе не уменьшали зарплату.
3. Свободный график, с 12 до 19.
4. Работа по созданию поисковика с семантическим анализом текста т.е. достаточно интересно.
5. Все получалось в срок, почти без стрессов.
Но через пару лет, это ужасно надоело, по описанным вами причинам. Полгода пришлось искать что нибудь более менее сравнимое, не по интересности, а по другим критериям, как только нашлось уволился в хороших отношениях с компанией.
Но допустим я напишу код разбивки(spell chkerом) на слова. Сложно ли будет расширить эту библиотеку на поддержку немецкого для элементарных слов.
А где можно выкачать оригинал с aot.ru?
Почему нет немецкой библиотеки, если она указанна на АОТ.