Комментарии 8
То, что вы отнесли к ложному срабатыванию, зависит от трактовки. Например, новость может звучать так «Банки снижают ставки по кредитам», а новости про конкретные банки будут конкретизировать общую.
А почему TF-IDF и выбрасывание стоп-слов (по словарю) не пробовали? И, как мне кажется, word2vec должен дать хорошие результаты.
А триграммы?
Один из самых простых и быстрых алгоритмов нечеткого сравнения строк — сим-хеши на н-граммах (буквенных). Точность выставляется порогами.
Можно использовать сравнение семантических классов, полученных из w2v. Работает еще быстрее и очень не затратно по ресурсам.
Можно использовать сравнение семантических классов, полученных из w2v. Работает еще быстрее и очень не затратно по ресурсам.
100 заголовков новостей — очень маленький датасет. Большой риск переобучиться под него с коэффициентами. Как вариант — можно спарить заголовки Яндекс.Новостей и считать за бейзлайн в первом приближении — они тоже группируют похожие новости в сюжеты
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Нечёткое сравнение строк: пойми меня, если сможешь