Comments / Profile of mikhail

Михаил Марюфич@mikhail_mar

Пользователь

@mikhail_mar Mar 31 2021 at 08:46

Про сложность задачи поиска ботов(через которых обычно спам и распространяется) рассказывал мой коллега вот тут www.highload.ru/spb/2019/abstracts/4932.

Если вкратце, то это так не работает, сложно отличить свежезарегистрированного бота-спамера от нормального юзера, поэтому и нужны такие факторы, которые позволяют анализировать контентную составляющую, чтобы находить таких ребят как можно раньше. Могут даже угнать аккаунт пользователя, который ранее был хорошим, то есть модерировать придется не раз и не 2. А аккаунтов у нас сотни миллионов.

OCR или как мы учимся читать спам на 5+

@mikhail_mar Mar 30 2021 at 10:23

Исторически, когда easyOCR стал хорошо развиваться, наша система была уже в строю=)
Алгоритмы, который у него под капотом тоже пробовали.

Что касается собственно использования его как фреймворка, нужно разбираться легко ли его дообучать, сейчас глянул в репу, такого кода там не нашел, а нам это критически важно.

Так же нужно бенчмаркать по производительности, вижу в последних релизах есть что-то про дистилляцию моделек, но тем-не менее.

В общем — пробовали, но пока не по серьезке.

OCR или как мы учимся читать спам на 5+

@mikhail_mar Mar 30 2021 at 08:36

У нас есть разной сложности механизмы для отлова дубликатов.
Последний описанный в статье кейс — про одну из таких, на основе распознанного текста.

Различные признаки про уникальность и содержимое контента — важные факторы для более общей антиспам системы.

В общем, одинаковые картинки — посты ловятся по количественным показателям. Когда спамеры хитрят и меняют текст/картинки/текст на картинке уже так не работает.

OCR или как мы учимся читать спам на 5+

@mikhail_mar Mar 29 2021 at 14:12

Ага, всё так=) Есть еще много фишек, с этим связанных. Не буду публично сильно подсказывать, многие из вариантов достаточно очевидны.

Наша первостепенная задача делать так, чтобы спам был дорог в изготовлении и менее ctr-ный. Искоренить его весь — это недостижимый идеал.