Тематическое моделирование новостей с помощью факторного анализа / Comments / Habr

george3 Oct 11 2019 at 16:50

Анализ текста без учета семантики слов — малополезная трата времени.

iggisv9t Oct 21 2019 at 16:43

Это очень похоже на то, что мы делаем вот в этом проекте habr.com/ru/company/ods/blog/460287
Может быть мы сможем как-то объединить усилия?

По поводу LDA и гранулярности до темы отдельного события есть несколько соображений. Во-первых, иерархические модели. То есть попросту делать тематическое моделирование внутри темы заново каждый раз (хотя строго говоря там всё сложнее). Мы пробовали из этого парочку подходов и получалось интересно. Во-вторых, выделение событий во времени, то есть не совсем тематизация даже, но оно очень хорошо выделяет конкретные события из новостей и их перепечатки и цитирования. Есть работа на эту тему www.memetracker.org. Мы хотим попробовать повторить у себя.

Alexey_mosc Oct 22 2019 at 10:25

Вашу статью я читал. Направление, в целом, совпадает, цели, видимо, разные. Под свои задачи я пока удовлетворен текущим решением. То, что вы описали, больше походит на долговременную систему трекинга тем и их хранения для последующего анализа. Ну, если это нужно бизнесу, я тоже что-то подобное сделаю, с BigData и прочими трендовыми обвесами. Пока такое не нужно. За ссылку на исследование — спасибо, почитаю работу.

Тематическое моделирование новостей с помощью факторного анализа

Comments 3

Articles