Комментарии 6
Мне кажется, можно просто Tesseract'ом распознавать текст и искать подобный. Если отличается на 3-4 слова, то это случай 3 (крохотные отличия). Если совсем не похоже (тут лучше смотреть по семантике, в отличие от случая 1), то это случай 1 (скриншоты из твиттера). Если почти одно и то же, но не сл. 3, то это сл. 2.
Правда, будет бесполезен при бестекстовых мемах.
А вы не пробовали использовать SIFT дескрипторы чтобы сравнивать картинки? На подобных задачах они должны хорошо работать заодно позволяют визуализировать за что цепляется алгоритм в отличие от нейросетей.
Не пробовал. Добавил в список на почитать. Быстрый поиск находит PythonSIFT, обязательно затестирую и дам апдейт в статью, как он себя показал
Тоже начал делать такое, в планах было прийти и пройти и Ваши шаги. Однако начал только со сравнения текстов с помощью шинглов. Честно изучу и скоммунижу ваши наработки)
Один бот против тысяч мемов, или как я создал бота-полицейского для мем-чата