mikhail_mar 29 мар 2021 в 14:52

OCR или как мы учимся читать спам на 5+

12 мин

20K

Блог компании ОКМашинное обучение*Спам и антиспам

+30

Комментарии 16

saboteur_kiev 29 мар 2021 в 16:30

Я правильно понял, что убогий дизайн на картинках с вырвиглазными шрифтами и расцветками, это на самом деле хитрое противодействие антиспам OCR?
Я думал что спаммеры застряли в 2000, а оказывается может быть наоборот, они так обходят распознавание и АИ?

mikhail_mar 29 мар 2021 в 17:12

Ага, всё так=) Есть еще много фишек, с этим связанных. Не буду публично сильно подсказывать, многие из вариантов достаточно очевидны.

Наша первостепенная задача делать так, чтобы спам был дорог в изготовлении и менее ctr-ный. Искоренить его весь — это недостижимый идеал.

Tarakanator 29 мар 2021 в 17:50

похоже на то, только я думал что не спамеры в 2000 застряли, а целевая аудитория спамеров, ну а они под низ подстраиваются.

Sergey_zx 31 мар 2021 в 00:32

Если задуматься, то целевая аудитория спамеров не те, к кому обращена реклама, а те, кто эту рекламу оплачивает.
Им глубоко безразлично до кого э а реклама дойдет и кто хоть крам глаза её прочитает. Их главная задача, создать у спонсора иллюзию, что оно будет ему полезно.
Имхо, именно на этом и держится 99% создателей рекламы.

Tarakanator 31 мар 2021 в 06:41

Ну хз, мне кажется те, кто оплачивают рекламу спамерам всё-таки поумнее будут.

saboteur_kiev 31 мар 2021 в 12:09

это почему? =)

Tarakanator 31 мар 2021 в 13:01

Потому, что конкуренция.

Alexufo 29 мар 2021 в 16:53

Рукописный текст сложен для распознавания. Для работы с ним необходимо использовать дополнительные трюки и дообучать модель.

Аа… спасибо. теперь буду писать от руки: Маня не знала что от вросшего ногтя нужно было всего на всего намазать обычный…

m0nstermind 29 мар 2021 в 17:45

Отличный план! Надежный! Но боюсь нерабочий, тк подписывать каждую картинку вручную будет довольно трудоемко.

НЛО прилетело и опубликовало эту надпись здесь

mikhail_mar 30 мар 2021 в 11:36

У нас есть разной сложности механизмы для отлова дубликатов.
Последний описанный в статье кейс — про одну из таких, на основе распознанного текста.

Различные признаки про уникальность и содержимое контента — важные факторы для более общей антиспам системы.

В общем, одинаковые картинки — посты ловятся по количественным показателям. Когда спамеры хитрят и меняют текст/картинки/текст на картинке уже так не работает.

darkAlert 30 мар 2021 в 11:59

А easyOCR не пробовали? Мы везде tesseract заменили на него. По ощущениям и метрикам — работает в разы лучше.

mikhail_mar 30 мар 2021 в 13:23

Исторически, когда easyOCR стал хорошо развиваться, наша система была уже в строю=)
Алгоритмы, который у него под капотом тоже пробовали.

Что касается собственно использования его как фреймворка, нужно разбираться легко ли его дообучать, сейчас глянул в репу, такого кода там не нашел, а нам это критически важно.

Так же нужно бенчмаркать по производительности, вижу в последних релизах есть что-то про дистилляцию моделек, но тем-не менее.

В общем — пробовали, но пока не по серьезке.

zvlad_vitamin 31 мар 2021 в 11:14

Мне кажется, проще сделать что то с пользователями, чем тратить такие бабки на доп. сервера для обратоки картинок.
Юзеров раз отмодерировать и все. Если со временем юзер не добросовесный стал, то удалять его. Вы же всеравно всю инфу о пользователе собираете. Можно второй раз не дать ему регистироваться.

mikhail_mar 31 мар 2021 в 11:46

Про сложность задачи поиска ботов(через которых обычно спам и распространяется) рассказывал мой коллега вот тут www.highload.ru/spb/2019/abstracts/4932.

Если вкратце, то это так не работает, сложно отличить свежезарегистрированного бота-спамера от нормального юзера, поэтому и нужны такие факторы, которые позволяют анализировать контентную составляющую, чтобы находить таких ребят как можно раньше. Могут даже угнать аккаунт пользователя, который ранее был хорошим, то есть модерировать придется не раз и не 2. А аккаунтов у нас сотни миллионов.

Galanit 6 апр 2021 в 15:03

На поверхности потребность создать нейронную сеть, которая научиться обходить защиту и продавать такой сервис)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий