Denxc30 окт 2017 в 05:13

Нечёткое сравнение строк: пойми меня, если сможешь

8 мин

70K

.NET * C# * Алгоритмы * Занимательные задачкиПрограммирование *

+19

Комментарии 8

sshmakov 30 окт 2017 в 07:05

То, что вы отнесли к ложному срабатыванию, зависит от трактовки. Например, новость может звучать так «Банки снижают ставки по кредитам», а новости про конкретные банки будут конкретизировать общую.

nikolay_karelin 30 окт 2017 в 07:17

А почему TF-IDF и выбрасывание стоп-слов (по словарю) не пробовали? И, как мне кажется, word2vec должен дать хорошие результаты.

Denxc 30 окт 2017 в 07:34

Вполне возможно. Следующей задачей стоит генерация корректных хеш-тегов, которые соответствуют новости. Воспользуюсь вашим советом обязательно.

igrishaev 30 окт 2017 в 09:17

А триграммы?

Denxc 30 окт 2017 в 09:25

По сути, при SubtokenLength=3 получаются триграммы. Результат на триграммах был тоже хорошим, но на несколько процентов точность была меньше, в сравнении с применением двуграмм.

elingur 31 окт 2017 в 08:09

Один из самых простых и быстрых алгоритмов нечеткого сравнения строк — сим-хеши на н-граммах (буквенных). Точность выставляется порогами.
Можно использовать сравнение семантических классов, полученных из w2v. Работает еще быстрее и очень не затратно по ресурсам.

Denxc 31 окт 2017 в 08:20

Спасибо. Ознакомлюсь обязательно.

nerevar1n 1 ноя 2017 в 09:21

100 заголовков новостей — очень маленький датасет. Большой риск переобучиться под него с коэффициентами. Как вариант — можно спарить заголовки Яндекс.Новостей и считать за бейзлайн в первом приближении — они тоже группируют похожие новости в сюжеты

Зарегистрируйтесь на Хабре, чтобы оставить комментарий