Zalina Nov 13 2012 at 11:25

Кластеризация дубликатов в поиске по картинкам

4 min

17K

Яндекс corporate blogImage processing*

+32

Comments 14

ilyak Nov 13 2012 at 12:51

Естественно, понадобилось найти более рациональное решение этой инфраструктурной задачи. И мы смогли это сделать.
И как же вы это сделали?

georgeneversleep Nov 13 2012 at 13:08

То как они это сделали описано в статье. В предложении речь о сравнении подхода который был с тем что используется сейчас. См. предыдущее предложение:
Чтобы соответствовать темпам роста контента в интернете, используя наш старый алгоритм, нужно бы было невероятно быстро наращивать ресурсы

megaweber Nov 13 2012 at 13:01

Последнюю картинку надо наверх — куда больше народу пост прочитает.

Zalina Nov 13 2012 at 13:26

Нет! Это бонус для тех, кто прочитал до конца.

+14

klubben Nov 13 2012 at 13:19

А иногда в картинки могут внести некоторые изменения. Например, добавить водяные знаки или логотипы, изменить цвета или обрезать. Но этого будет недостаточно, чтобы считать это изображение новым.

Как же бесит когда в превьюшке видишь какой-нибудь демативатор с нечитаемо мелким текстом тыкаешь на него и получаешь исходную картинку без текста вообще

VladMystetskyi Nov 13 2012 at 13:43

«Для того чтобы компьютер мог «рассмотреть» эти фрагменты, их нужно перевести их в цифровой формат»
Написано как для 3х летних детей.

Так же не указаны ссылки на другие статьи:
company.yandex.ru/technologies/duplicates/
лекция:
habrahabr.ru/post/143667/

Informatik Nov 13 2012 at 13:55

>> чтобы добавить и обработать 10 миллионов новых изображений…
>> не нужно заново запускать процесс на уже существующие в базе миллиарды.
Предположу, что у вас используется какой-то инкрементальный алгоритм кластеризации, который позволяет добавлять картинки в кластерную иерархию без перестройки всей структуры. Но ведь с какого-то момента добавленных данных станет так много, что все равно придется сделать кластеризацию картинок по новой. Как вы решаете эту проблему?

krainov Nov 14 2012 at 18:15

Увы, никак. Только полной перекластеризацией.

le0pard Nov 13 2012 at 16:03

Пару месяцев назад писал статью для решения такой проблемы с помощью PostgreSQL:

leopard.in.ua/2012/06/01/effective-similarity-search-in-postgresql/

thekvs Nov 13 2012 at 18:18

Какой именно из алгоритмов выделения фич и вычисления дескрипторов используете? SURF, ORB что-то другое?

USeTi Nov 14 2012 at 13:58

Есть еще SIFT.
А вот гораздо более интересный вопрос — что используется для поиска ближайших соседей?

krainov Nov 14 2012 at 18:14

Для поиска интересных точек мы используем DoG. А дескрипторы у нас свои. Но это не принципиально. Тот же SIFT вполне подойдет.

Что касается «ближайших соседей», то мы их, строго говоря, не ищем.
А кандидаты в дубликаты определяются с помощью визуальных слов.

Midas Nov 14 2012 at 13:11

Напишите пожалуйста, в конце статьи, список используемых технологий, а-ля в научных статьях пишут список использованной литературы.

anton Nov 14 2012 at 15:48

Спасибо за идею. Попробуем сделать так в следующий раз.