Комментарии 5
А если прогнать текст через спеллчекер – он сразу отсеет комментарий 3, и задача упростится ;-)
Хороший подход. Вот только у вас не шинглы, а н-граммы (https://ru.m.wikipedia.org/wiki/N-%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0)
Шинглы разбивают на отрезки измеряемые в словах. А по буквам — чуть другой алгоритм, хоть и похожий.
И ещё для упрощения поиска можно использовать фонетические алгоритмы — они знатно упрощают жизнь в великом и могучем.
Буквально вчера размышлял о том, что имеет смысл попробовать алгоритм doc2vec.
Тогда в качестве ещё одного признака политбота можно было бы использовать факт одновременной смены направления вектора их сообщений в следствии централизованной замены методичек.
Тогда в качестве ещё одного признака политбота можно было бы использовать факт одновременной смены направления вектора их сообщений в следствии централизованной замены методичек.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Ищем «Троллей». Алгоритм шинглов & косинусное сходство