Pull to refresh

Comments 16

Я правильно понял, что убогий дизайн на картинках с вырвиглазными шрифтами и расцветками, это на самом деле хитрое противодействие антиспам OCR?
Я думал что спаммеры застряли в 2000, а оказывается может быть наоборот, они так обходят распознавание и АИ?
Ага, всё так=) Есть еще много фишек, с этим связанных. Не буду публично сильно подсказывать, многие из вариантов достаточно очевидны.

Наша первостепенная задача делать так, чтобы спам был дорог в изготовлении и менее ctr-ный. Искоренить его весь — это недостижимый идеал.
похоже на то, только я думал что не спамеры в 2000 застряли, а целевая аудитория спамеров, ну а они под низ подстраиваются.
Если задуматься, то целевая аудитория спамеров не те, к кому обращена реклама, а те, кто эту рекламу оплачивает.
Им глубоко безразлично до кого э а реклама дойдет и кто хоть крам глаза её прочитает. Их главная задача, создать у спонсора иллюзию, что оно будет ему полезно.
Имхо, именно на этом и держится 99% создателей рекламы.
Ну хз, мне кажется те, кто оплачивают рекламу спамерам всё-таки поумнее будут.
Рукописный текст сложен для распознавания. Для работы с ним необходимо использовать дополнительные трюки и дообучать модель.

Аа… спасибо. теперь буду писать от руки: Маня не знала что от вросшего ногтя нужно было всего на всего намазать обычный…
Отличный план! Надежный! Но боюсь нерабочий, тк подписывать каждую картинку вручную будет довольно трудоемко.
UFO landed and left these words here
У нас есть разной сложности механизмы для отлова дубликатов.
Последний описанный в статье кейс — про одну из таких, на основе распознанного текста.

Различные признаки про уникальность и содержимое контента — важные факторы для более общей антиспам системы.

В общем, одинаковые картинки — посты ловятся по количественным показателям. Когда спамеры хитрят и меняют текст/картинки/текст на картинке уже так не работает.
А easyOCR не пробовали? Мы везде tesseract заменили на него. По ощущениям и метрикам — работает в разы лучше.
Исторически, когда easyOCR стал хорошо развиваться, наша система была уже в строю=)
Алгоритмы, который у него под капотом тоже пробовали.

Что касается собственно использования его как фреймворка, нужно разбираться легко ли его дообучать, сейчас глянул в репу, такого кода там не нашел, а нам это критически важно.

Так же нужно бенчмаркать по производительности, вижу в последних релизах есть что-то про дистилляцию моделек, но тем-не менее.

В общем — пробовали, но пока не по серьезке.
Мне кажется, проще сделать что то с пользователями, чем тратить такие бабки на доп. сервера для обратоки картинок.
Юзеров раз отмодерировать и все. Если со временем юзер не добросовесный стал, то удалять его. Вы же всеравно всю инфу о пользователе собираете. Можно второй раз не дать ему регистироваться.
Про сложность задачи поиска ботов(через которых обычно спам и распространяется) рассказывал мой коллега вот тут www.highload.ru/spb/2019/abstracts/4932.

Если вкратце, то это так не работает, сложно отличить свежезарегистрированного бота-спамера от нормального юзера, поэтому и нужны такие факторы, которые позволяют анализировать контентную составляющую, чтобы находить таких ребят как можно раньше. Могут даже угнать аккаунт пользователя, который ранее был хорошим, то есть модерировать придется не раз и не 2. А аккаунтов у нас сотни миллионов.

На поверхности потребность создать нейронную сеть, которая научиться обходить защиту и продавать такой сервис)

Sign up to leave a comment.