Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
А почему TF-IDF и выбрасывание стоп-слов (по словарю) не пробовали? И, как мне кажется, word2vec должен дать хорошие результаты.
А триграммы?
100 заголовков новостей — очень маленький датасет. Большой риск переобучиться под него с коэффициентами. Как вариант — можно спарить заголовки Яндекс.Новостей и считать за бейзлайн в первом приближении — они тоже группируют похожие новости в сюжеты
Нечёткое сравнение строк: пойми меня, если сможешь