Pull to refresh

Comments 3

Анализ текста без учета семантики слов — малополезная трата времени.
Это очень похоже на то, что мы делаем вот в этом проекте habr.com/ru/company/ods/blog/460287
Может быть мы сможем как-то объединить усилия?

По поводу LDA и гранулярности до темы отдельного события есть несколько соображений. Во-первых, иерархические модели. То есть попросту делать тематическое моделирование внутри темы заново каждый раз (хотя строго говоря там всё сложнее). Мы пробовали из этого парочку подходов и получалось интересно. Во-вторых, выделение событий во времени, то есть не совсем тематизация даже, но оно очень хорошо выделяет конкретные события из новостей и их перепечатки и цитирования. Есть работа на эту тему www.memetracker.org. Мы хотим попробовать повторить у себя.
Вашу статью я читал. Направление, в целом, совпадает, цели, видимо, разные. Под свои задачи я пока удовлетворен текущим решением. То, что вы описали, больше походит на долговременную систему трекинга тем и их хранения для последующего анализа. Ну, если это нужно бизнесу, я тоже что-то подобное сделаю, с BigData и прочими трендовыми обвесами. Пока такое не нужно. За ссылку на исследование — спасибо, почитаю работу.
Sign up to leave a comment.

Articles