Search
Write a publication
Pull to refresh
12
0
Михаил Марюфич @mikhail_mar

Пользователь

Send message
Про сложность задачи поиска ботов(через которых обычно спам и распространяется) рассказывал мой коллега вот тут www.highload.ru/spb/2019/abstracts/4932.

Если вкратце, то это так не работает, сложно отличить свежезарегистрированного бота-спамера от нормального юзера, поэтому и нужны такие факторы, которые позволяют анализировать контентную составляющую, чтобы находить таких ребят как можно раньше. Могут даже угнать аккаунт пользователя, который ранее был хорошим, то есть модерировать придется не раз и не 2. А аккаунтов у нас сотни миллионов.
Исторически, когда easyOCR стал хорошо развиваться, наша система была уже в строю=)
Алгоритмы, который у него под капотом тоже пробовали.

Что касается собственно использования его как фреймворка, нужно разбираться легко ли его дообучать, сейчас глянул в репу, такого кода там не нашел, а нам это критически важно.

Так же нужно бенчмаркать по производительности, вижу в последних релизах есть что-то про дистилляцию моделек, но тем-не менее.

В общем — пробовали, но пока не по серьезке.
У нас есть разной сложности механизмы для отлова дубликатов.
Последний описанный в статье кейс — про одну из таких, на основе распознанного текста.

Различные признаки про уникальность и содержимое контента — важные факторы для более общей антиспам системы.

В общем, одинаковые картинки — посты ловятся по количественным показателям. Когда спамеры хитрят и меняют текст/картинки/текст на картинке уже так не работает.
Ага, всё так=) Есть еще много фишек, с этим связанных. Не буду публично сильно подсказывать, многие из вариантов достаточно очевидны.

Наша первостепенная задача делать так, чтобы спам был дорог в изготовлении и менее ctr-ный. Искоренить его весь — это недостижимый идеал.

Information

Rating
Does not participate
Registered
Activity