Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Алгоритм-то где? )
И да — как я понимаю — обучал word2vec на наборе текстов и кластеризовал полученные вектора? Было бы интересно получить набор кластеров (ну и вектора word2vec, для которых он составлен, конечно).
Тут вопрос в том, что кластеризация тоже не в вакууме делается. Можно ведь кластеризовать текст и по
количеству вхождений буквы А. А если нужна тематическая кластеризация, то нужны темы, относительно которых кластеризуем документы. Можно использовать Вики в качестве источника тем. Но все равно — качественной кластеризуем, если у нее под капотом нет классификации — не получится.
Кластеризация текстовых документов по семантическим признакам (часть первая: описание алгоритма)