Как стать автором
Обновить

Комментарии 5

А если прогнать текст через спеллчекер – он сразу отсеет комментарий 3, и задача упростится ;-)

Хороший подход. Вот только у вас не шинглы, а н-граммы (https://ru.m.wikipedia.org/wiki/N-%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0)


Шинглы разбивают на отрезки измеряемые в словах. А по буквам — чуть другой алгоритм, хоть и похожий.


И ещё для упрощения поиска можно использовать фонетические алгоритмы — они знатно упрощают жизнь в великом и могучем.

Буквально вчера размышлял о том, что имеет смысл попробовать алгоритм doc2vec.

Тогда в качестве ещё одного признака политбота можно было бы использовать факт одновременной смены направления вектора их сообщений в следствии централизованной замены методичек.
Есть сомнения в своевременной актуализации методичек и подозрение что иногда идёт отсебятина дублирующим первый канал или Соловьёва врезками. Если перевести текущую пропаганду первого в слова и отсечь то думаю заденет не только ботов.
НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории