Pull to refresh

Comments 7

… оказалось, что почти во всех случаях действительно выделяются группы сайтов, объединённые одной темой и достаточно похожие друг на друга.

На мой взгляд, в это мало удивительного.

А какие сайты согласно вашим расчетам входят в ту же группу, что Хабр?
Попытался натравить Mallet на всего-то 800 000 документов — получил out of memory…
Так, может, действительно out? Я, честно говоря, не могу с ходу сообразить, какое должно быть потребление – понятно, что минимум число топиков умножить на число документов плюс число слов, но это минимум…
А как это сравнимо с SVD?

Вроде бы у SVD то преимущество, что темы не заданы заранее, а, как бы, получаются автоматически из распределения слов по документам. И набор оптимальных «тем» не обязательно будет таким, который можно придумать априори.
Сравнение с SVD – интересная штука: такой подход на самом деле как раз очень похож на SVD. LDA – это тоже в каком-то смысле разложение «матрицы встречаемости слов в документах» на «произведение» матрицы «слова x темы» и матрицы «документы x темы». Всё в кавычках, но сходство несомненное.

В том, что я тут описывал, контент вообще не участвует, LDA сугубо на лайках запускалась; возможно, мы потом расскажем про то, как контент использовать.
Одно из самых понятных объяснений LDA метода видел тут.
Sign up to leave a comment.