mikhail_mar Mar 29 2021 at 11:52

OCR или как мы учимся читать спам на 5+

12 min

21K

ОК corporate blogMachine learning * Spamming and anti-spamming

+30

Comments 16

saboteur_kiev Mar 29 2021 at 13:30

Я правильно понял, что убогий дизайн на картинках с вырвиглазными шрифтами и расцветками, это на самом деле хитрое противодействие антиспам OCR?
Я думал что спаммеры застряли в 2000, а оказывается может быть наоборот, они так обходят распознавание и АИ?

mikhail_mar Mar 29 2021 at 14:12

Ага, всё так=) Есть еще много фишек, с этим связанных. Не буду публично сильно подсказывать, многие из вариантов достаточно очевидны.

Наша первостепенная задача делать так, чтобы спам был дорог в изготовлении и менее ctr-ный. Искоренить его весь — это недостижимый идеал.

Tarakanator Mar 29 2021 at 14:50

похоже на то, только я думал что не спамеры в 2000 застряли, а целевая аудитория спамеров, ну а они под низ подстраиваются.

Sergey_zx Mar 30 2021 at 21:32

Если задуматься, то целевая аудитория спамеров не те, к кому обращена реклама, а те, кто эту рекламу оплачивает.
Им глубоко безразлично до кого э а реклама дойдет и кто хоть крам глаза её прочитает. Их главная задача, создать у спонсора иллюзию, что оно будет ему полезно.
Имхо, именно на этом и держится 99% создателей рекламы.

Tarakanator Mar 31 2021 at 03:41

Ну хз, мне кажется те, кто оплачивают рекламу спамерам всё-таки поумнее будут.

saboteur_kiev Mar 31 2021 at 09:09

это почему? =)

Tarakanator Mar 31 2021 at 10:01

Потому, что конкуренция.

Alexufo Mar 29 2021 at 13:53

Рукописный текст сложен для распознавания. Для работы с ним необходимо использовать дополнительные трюки и дообучать модель.

Аа… спасибо. теперь буду писать от руки: Маня не знала что от вросшего ногтя нужно было всего на всего намазать обычный…

m0nstermind Mar 29 2021 at 14:45

Отличный план! Надежный! Но боюсь нерабочий, тк подписывать каждую картинку вручную будет довольно трудоемко.

UFO landed and left these words here

mikhail_mar Mar 30 2021 at 08:36

У нас есть разной сложности механизмы для отлова дубликатов.
Последний описанный в статье кейс — про одну из таких, на основе распознанного текста.

Различные признаки про уникальность и содержимое контента — важные факторы для более общей антиспам системы.

В общем, одинаковые картинки — посты ловятся по количественным показателям. Когда спамеры хитрят и меняют текст/картинки/текст на картинке уже так не работает.

darkAlert Mar 30 2021 at 08:59

А easyOCR не пробовали? Мы везде tesseract заменили на него. По ощущениям и метрикам — работает в разы лучше.

mikhail_mar Mar 30 2021 at 10:23

Исторически, когда easyOCR стал хорошо развиваться, наша система была уже в строю=)
Алгоритмы, который у него под капотом тоже пробовали.

Что касается собственно использования его как фреймворка, нужно разбираться легко ли его дообучать, сейчас глянул в репу, такого кода там не нашел, а нам это критически важно.

Так же нужно бенчмаркать по производительности, вижу в последних релизах есть что-то про дистилляцию моделек, но тем-не менее.

В общем — пробовали, но пока не по серьезке.

zvlad_vitamin Mar 31 2021 at 08:14

Мне кажется, проще сделать что то с пользователями, чем тратить такие бабки на доп. сервера для обратоки картинок.
Юзеров раз отмодерировать и все. Если со временем юзер не добросовесный стал, то удалять его. Вы же всеравно всю инфу о пользователе собираете. Можно второй раз не дать ему регистироваться.

mikhail_mar Mar 31 2021 at 08:46

Про сложность задачи поиска ботов(через которых обычно спам и распространяется) рассказывал мой коллега вот тут www.highload.ru/spb/2019/abstracts/4932.

Если вкратце, то это так не работает, сложно отличить свежезарегистрированного бота-спамера от нормального юзера, поэтому и нужны такие факторы, которые позволяют анализировать контентную составляющую, чтобы находить таких ребят как можно раньше. Могут даже угнать аккаунт пользователя, который ранее был хорошим, то есть модерировать придется не раз и не 2. А аккаунтов у нас сотни миллионов.

Galanit Apr 6 2021 at 12:03

На поверхности потребность создать нейронную сеть, которая научиться обходить защиту и продавать такой сервис)