Как стать автором
Обновить

Комментарии 8

То, что вы отнесли к ложному срабатыванию, зависит от трактовки. Например, новость может звучать так «Банки снижают ставки по кредитам», а новости про конкретные банки будут конкретизировать общую.

А почему TF-IDF и выбрасывание стоп-слов (по словарю) не пробовали? И, как мне кажется, word2vec должен дать хорошие результаты.

Вполне возможно. Следующей задачей стоит генерация корректных хеш-тегов, которые соответствуют новости. Воспользуюсь вашим советом обязательно.

А триграммы?

По сути, при SubtokenLength=3 получаются триграммы. Результат на триграммах был тоже хорошим, но на несколько процентов точность была меньше, в сравнении с применением двуграмм.
Один из самых простых и быстрых алгоритмов нечеткого сравнения строк — сим-хеши на н-граммах (буквенных). Точность выставляется порогами.
Можно использовать сравнение семантических классов, полученных из w2v. Работает еще быстрее и очень не затратно по ресурсам.
Спасибо. Ознакомлюсь обязательно.

100 заголовков новостей — очень маленький датасет. Большой риск переобучиться под него с коэффициентами. Как вариант — можно спарить заголовки Яндекс.Новостей и считать за бейзлайн в первом приближении — они тоже группируют похожие новости в сюжеты

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации