Комментарии 6
А если в самом начале отсекать полностью идентичные картинки (по размеру и чексумме/хешу)?
Скорее всего такой фильтр картинок у них делается на определенном этапе, но этого явно не достаточно, а что если пользователь просто откроет картинку в редакторе «пересохранит»(что изменит мета информацию для некоторых форматов) или сменит расширение/формат например с png на jpg, один пиксель изменит и т.д., и вся проверка «псу под хвост».
Практически на одном из первых этапов загрузки контента такая проверка есть. Но она отсекает только часть совсем идентичных дубликатов.
Была задача искать локально на android девайсе в адресной книге одинаковые фото контактов или проверять идентичность с предыдущей(а android всегда конвертирует картинки и не оставляет исходную), как очень простое решение использовался phash от картинок, но у такого подхода были свои минусы точности сравнения, так как задается порог при котором они считаются одинаковыми даже после различных трансформаций, интересно как такую задачу можно было решать на слабом железе иначе?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Не баян: ищем дубликаты изображений на основе Milvus с индексом FAISS внутри