Progrik May 11 2012 at 16:18

Кластеризация дубликатов в Яндекс.Картинках

1 min

7.5K

Image processing *

+38

Comments 8

ktotamcamoetakoe May 11 2012 at 18:10

Теперь я знаю точно, найти дубликат текстового документа в 100500 раз легче и быстрей.

Спасибо, очень познавательно.

zhmenia May 11 2012 at 23:07

Прикольно. Сам, когда только изучал php, столкнулся с похожей задачей, но тогда просто уменьшал изображения до 7x6 px и сравнивал потекстово через similar_text. Оказывается, был близок к истине =)

UFO landed and left these words here

Progrik May 12 2012 at 07:25

Жаль я не был на субботнике, а то задал бы вопрос «как поведёт себя ваш алгоритм, если взять N картинок из поиска и склеить их горизонтально/вертикально?» — думаю, такое он не определит.

Perfer May 12 2012 at 07:51

То о чем говорите вы, это скорее критическое отклонение от центра кластера и алгоритм сработает правильно, не отнеся это изображение ни к одному классу или отнеся его к классу шума.

dm9 May 12 2012 at 08:12

Интересно было бы узнать, как определяются похожие прямоугольные области на картинках-полудубликатах после выделения фич.

Ladygin May 12 2012 at 10:57

Интересно, а для нахождения дубликатов mp3 файлов есть какие то решения, может кто сталкивался?