Progrik May 11 2012 at 20:18

Кластеризация дубликатов в Яндекс.Картинках

1 min

7.3K

Image processing*

+38

Comments 8

ktotamcamoetakoe May 11 2012 at 22:10

Теперь я знаю точно, найти дубликат текстового документа в 100500 раз легче и быстрей.

Спасибо, очень познавательно.

zhmenia May 12 2012 at 03:07

Прикольно. Сам, когда только изучал php, столкнулся с похожей задачей, но тогда просто уменьшал изображения до 7x6 px и сравнивал потекстово через similar_text. Оказывается, был близок к истине =)

UFO just landed and posted this here

Progrik May 12 2012 at 11:25

Жаль я не был на субботнике, а то задал бы вопрос «как поведёт себя ваш алгоритм, если взять N картинок из поиска и склеить их горизонтально/вертикально?» — думаю, такое он не определит.

Perfer May 12 2012 at 11:51

То о чем говорите вы, это скорее критическое отклонение от центра кластера и алгоритм сработает правильно, не отнеся это изображение ни к одному классу или отнеся его к классу шума.

dm9 May 12 2012 at 12:12

Интересно было бы узнать, как определяются похожие прямоугольные области на картинках-полудубликатах после выделения фич.

Ladygin May 12 2012 at 14:57

Интересно, а для нахождения дубликатов mp3 файлов есть какие то решения, может кто сталкивался?

Show the best of all time