Progrik11 мая 2012 в 16:18

Кластеризация дубликатов в Яндекс.Картинках

1 мин

7.5K

Обработка изображений *

+38

Комментарии 8

ktotamcamoetakoe 11 мая 2012 в 18:10

Теперь я знаю точно, найти дубликат текстового документа в 100500 раз легче и быстрей.

Спасибо, очень познавательно.

zhmenia 11 мая 2012 в 23:07

Прикольно. Сам, когда только изучал php, столкнулся с похожей задачей, но тогда просто уменьшал изображения до 7x6 px и сравнивал потекстово через similar_text. Оказывается, был близок к истине =)

НЛО прилетело и опубликовало эту надпись здесь

Progrik 12 мая 2012 в 07:25

Жаль я не был на субботнике, а то задал бы вопрос «как поведёт себя ваш алгоритм, если взять N картинок из поиска и склеить их горизонтально/вертикально?» — думаю, такое он не определит.

Perfer 12 мая 2012 в 07:51

То о чем говорите вы, это скорее критическое отклонение от центра кластера и алгоритм сработает правильно, не отнеся это изображение ни к одному классу или отнеся его к классу шума.

dm9 12 мая 2012 в 08:12

Интересно было бы узнать, как определяются похожие прямоугольные области на картинках-полудубликатах после выделения фич.

Ladygin 12 мая 2012 в 10:57

Интересно, а для нахождения дубликатов mp3 файлов есть какие то решения, может кто сталкивался?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий