Если вкратце, то это так не работает, сложно отличить свежезарегистрированного бота-спамера от нормального юзера, поэтому и нужны такие факторы, которые позволяют анализировать контентную составляющую, чтобы находить таких ребят как можно раньше. Могут даже угнать аккаунт пользователя, который ранее был хорошим, то есть модерировать придется не раз и не 2. А аккаунтов у нас сотни миллионов.
Исторически, когда easyOCR стал хорошо развиваться, наша система была уже в строю=)
Алгоритмы, который у него под капотом тоже пробовали.
Что касается собственно использования его как фреймворка, нужно разбираться легко ли его дообучать, сейчас глянул в репу, такого кода там не нашел, а нам это критически важно.
Так же нужно бенчмаркать по производительности, вижу в последних релизах есть что-то про дистилляцию моделек, но тем-не менее.
У нас есть разной сложности механизмы для отлова дубликатов.
Последний описанный в статье кейс — про одну из таких, на основе распознанного текста.
Различные признаки про уникальность и содержимое контента — важные факторы для более общей антиспам системы.
В общем, одинаковые картинки — посты ловятся по количественным показателям. Когда спамеры хитрят и меняют текст/картинки/текст на картинке уже так не работает.
Если вкратце, то это так не работает, сложно отличить свежезарегистрированного бота-спамера от нормального юзера, поэтому и нужны такие факторы, которые позволяют анализировать контентную составляющую, чтобы находить таких ребят как можно раньше. Могут даже угнать аккаунт пользователя, который ранее был хорошим, то есть модерировать придется не раз и не 2. А аккаунтов у нас сотни миллионов.
Алгоритмы, который у него под капотом тоже пробовали.
Что касается собственно использования его как фреймворка, нужно разбираться легко ли его дообучать, сейчас глянул в репу, такого кода там не нашел, а нам это критически важно.
Так же нужно бенчмаркать по производительности, вижу в последних релизах есть что-то про дистилляцию моделек, но тем-не менее.
В общем — пробовали, но пока не по серьезке.
Последний описанный в статье кейс — про одну из таких, на основе распознанного текста.
Различные признаки про уникальность и содержимое контента — важные факторы для более общей антиспам системы.
В общем, одинаковые картинки — посты ловятся по количественным показателям. Когда спамеры хитрят и меняют текст/картинки/текст на картинке уже так не работает.
Наша первостепенная задача делать так, чтобы спам был дорог в изготовлении и менее ctr-ный. Искоренить его весь — это недостижимый идеал.