Как стать автором
Обновить

Комментарии 6

Мне кажется, можно просто Tesseract'ом распознавать текст и искать подобный. Если отличается на 3-4 слова, то это случай 3 (крохотные отличия). Если совсем не похоже (тут лучше смотреть по семантике, в отличие от случая 1), то это случай 1 (скриншоты из твиттера). Если почти одно и то же, но не сл. 3, то это сл. 2.
Правда, будет бесполезен при бестекстовых мемах.

Интересный вариант, никогда раньше им не пользовался. Думаю, если будет видно, что продолжаются ложные срабатывания на текстовых мемах - добавлю дополнительную проверку

А вы не пробовали использовать SIFT дескрипторы чтобы сравнивать картинки? На подобных задачах они должны хорошо работать заодно позволяют визуализировать за что цепляется алгоритм в отличие от нейросетей.

Не пробовал. Добавил в список на почитать. Быстрый поиск находит PythonSIFT, обязательно затестирую и дам апдейт в статью, как он себя показал

Тоже начал делать такое, в планах было прийти и пройти и Ваши шаги. Однако начал только со сравнения текстов с помощью шинглов. Честно изучу и скоммунижу ваши наработки)

Если руки дойдут, то потом опубликую полный код бота апдейтом в пост, забирайте на здоровье)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации