Zalina 13 ноя 2012 в 11:25

Кластеризация дубликатов в поиске по картинкам

4 мин

17K

Блог компании ЯндексОбработка изображений*

+32

Комментарии 14

ilyak 13 ноя 2012 в 12:51

Естественно, понадобилось найти более рациональное решение этой инфраструктурной задачи. И мы смогли это сделать.
И как же вы это сделали?

georgeneversleep 13 ноя 2012 в 13:08

То как они это сделали описано в статье. В предложении речь о сравнении подхода который был с тем что используется сейчас. См. предыдущее предложение:
Чтобы соответствовать темпам роста контента в интернете, используя наш старый алгоритм, нужно бы было невероятно быстро наращивать ресурсы

megaweber 13 ноя 2012 в 13:01

Последнюю картинку надо наверх — куда больше народу пост прочитает.

Zalina 13 ноя 2012 в 13:26

Нет! Это бонус для тех, кто прочитал до конца.

+14

klubben 13 ноя 2012 в 13:19

А иногда в картинки могут внести некоторые изменения. Например, добавить водяные знаки или логотипы, изменить цвета или обрезать. Но этого будет недостаточно, чтобы считать это изображение новым.

Как же бесит когда в превьюшке видишь какой-нибудь демативатор с нечитаемо мелким текстом тыкаешь на него и получаешь исходную картинку без текста вообще

VladMystetskyi 13 ноя 2012 в 13:43

«Для того чтобы компьютер мог «рассмотреть» эти фрагменты, их нужно перевести их в цифровой формат»
Написано как для 3х летних детей.

Так же не указаны ссылки на другие статьи:
company.yandex.ru/technologies/duplicates/
лекция:
habrahabr.ru/post/143667/

Informatik 13 ноя 2012 в 13:55

>> чтобы добавить и обработать 10 миллионов новых изображений…
>> не нужно заново запускать процесс на уже существующие в базе миллиарды.
Предположу, что у вас используется какой-то инкрементальный алгоритм кластеризации, который позволяет добавлять картинки в кластерную иерархию без перестройки всей структуры. Но ведь с какого-то момента добавленных данных станет так много, что все равно придется сделать кластеризацию картинок по новой. Как вы решаете эту проблему?

krainov 14 ноя 2012 в 18:15

Увы, никак. Только полной перекластеризацией.

le0pard 13 ноя 2012 в 16:03

Пару месяцев назад писал статью для решения такой проблемы с помощью PostgreSQL:

leopard.in.ua/2012/06/01/effective-similarity-search-in-postgresql/

thekvs 13 ноя 2012 в 18:18

Какой именно из алгоритмов выделения фич и вычисления дескрипторов используете? SURF, ORB что-то другое?

USeTi 14 ноя 2012 в 13:58

Есть еще SIFT.
А вот гораздо более интересный вопрос — что используется для поиска ближайших соседей?

krainov 14 ноя 2012 в 18:14

Для поиска интересных точек мы используем DoG. А дескрипторы у нас свои. Но это не принципиально. Тот же SIFT вполне подойдет.

Что касается «ближайших соседей», то мы их, строго говоря, не ищем.
А кандидаты в дубликаты определяются с помощью визуальных слов.

Midas 14 ноя 2012 в 13:11

Напишите пожалуйста, в конце статьи, список используемых технологий, а-ля в научных статьях пишут список использованной литературы.

anton 14 ноя 2012 в 15:48

Спасибо за идею. Попробуем сделать так в следующий раз.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий