Как стать автором
Обновить

Комментарии 16

Я правильно понял, что убогий дизайн на картинках с вырвиглазными шрифтами и расцветками, это на самом деле хитрое противодействие антиспам OCR?
Я думал что спаммеры застряли в 2000, а оказывается может быть наоборот, они так обходят распознавание и АИ?
Ага, всё так=) Есть еще много фишек, с этим связанных. Не буду публично сильно подсказывать, многие из вариантов достаточно очевидны.

Наша первостепенная задача делать так, чтобы спам был дорог в изготовлении и менее ctr-ный. Искоренить его весь — это недостижимый идеал.
похоже на то, только я думал что не спамеры в 2000 застряли, а целевая аудитория спамеров, ну а они под низ подстраиваются.
Если задуматься, то целевая аудитория спамеров не те, к кому обращена реклама, а те, кто эту рекламу оплачивает.
Им глубоко безразлично до кого э а реклама дойдет и кто хоть крам глаза её прочитает. Их главная задача, создать у спонсора иллюзию, что оно будет ему полезно.
Имхо, именно на этом и держится 99% создателей рекламы.
Ну хз, мне кажется те, кто оплачивают рекламу спамерам всё-таки поумнее будут.
это почему? =)
Потому, что конкуренция.
Рукописный текст сложен для распознавания. Для работы с ним необходимо использовать дополнительные трюки и дообучать модель.

Аа… спасибо. теперь буду писать от руки: Маня не знала что от вросшего ногтя нужно было всего на всего намазать обычный…
Отличный план! Надежный! Но боюсь нерабочий, тк подписывать каждую картинку вручную будет довольно трудоемко.
НЛО прилетело и опубликовало эту надпись здесь
У нас есть разной сложности механизмы для отлова дубликатов.
Последний описанный в статье кейс — про одну из таких, на основе распознанного текста.

Различные признаки про уникальность и содержимое контента — важные факторы для более общей антиспам системы.

В общем, одинаковые картинки — посты ловятся по количественным показателям. Когда спамеры хитрят и меняют текст/картинки/текст на картинке уже так не работает.
А easyOCR не пробовали? Мы везде tesseract заменили на него. По ощущениям и метрикам — работает в разы лучше.
Исторически, когда easyOCR стал хорошо развиваться, наша система была уже в строю=)
Алгоритмы, который у него под капотом тоже пробовали.

Что касается собственно использования его как фреймворка, нужно разбираться легко ли его дообучать, сейчас глянул в репу, такого кода там не нашел, а нам это критически важно.

Так же нужно бенчмаркать по производительности, вижу в последних релизах есть что-то про дистилляцию моделек, но тем-не менее.

В общем — пробовали, но пока не по серьезке.
Мне кажется, проще сделать что то с пользователями, чем тратить такие бабки на доп. сервера для обратоки картинок.
Юзеров раз отмодерировать и все. Если со временем юзер не добросовесный стал, то удалять его. Вы же всеравно всю инфу о пользователе собираете. Можно второй раз не дать ему регистироваться.
Про сложность задачи поиска ботов(через которых обычно спам и распространяется) рассказывал мой коллега вот тут www.highload.ru/spb/2019/abstracts/4932.

Если вкратце, то это так не работает, сложно отличить свежезарегистрированного бота-спамера от нормального юзера, поэтому и нужны такие факторы, которые позволяют анализировать контентную составляющую, чтобы находить таких ребят как можно раньше. Могут даже угнать аккаунт пользователя, который ранее был хорошим, то есть модерировать придется не раз и не 2. А аккаунтов у нас сотни миллионов.

На поверхности потребность создать нейронную сеть, которая научиться обходить защиту и продавать такой сервис)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий