Комментарии 14
Естественно, понадобилось найти более рациональное решение этой инфраструктурной задачи. И мы смогли это сделать.
И как же вы это сделали?
И как же вы это сделали?
+1
Последнюю картинку надо наверх — куда больше народу пост прочитает.
+6
А иногда в картинки могут внести некоторые изменения. Например, добавить водяные знаки или логотипы, изменить цвета или обрезать. Но этого будет недостаточно, чтобы считать это изображение новым.
Как же бесит когда в превьюшке видишь какой-нибудь демативатор с нечитаемо мелким текстом тыкаешь на него и получаешь исходную картинку без текста вообще
Как же бесит когда в превьюшке видишь какой-нибудь демативатор с нечитаемо мелким текстом тыкаешь на него и получаешь исходную картинку без текста вообще
+2
«Для того чтобы компьютер мог «рассмотреть» эти фрагменты, их нужно перевести их в цифровой формат»
Написано как для 3х летних детей.
Так же не указаны ссылки на другие статьи:
company.yandex.ru/technologies/duplicates/
лекция:
habrahabr.ru/post/143667/
Написано как для 3х летних детей.
Так же не указаны ссылки на другие статьи:
company.yandex.ru/technologies/duplicates/
лекция:
habrahabr.ru/post/143667/
+2
>> чтобы добавить и обработать 10 миллионов новых изображений…
>> не нужно заново запускать процесс на уже существующие в базе миллиарды.
Предположу, что у вас используется какой-то инкрементальный алгоритм кластеризации, который позволяет добавлять картинки в кластерную иерархию без перестройки всей структуры. Но ведь с какого-то момента добавленных данных станет так много, что все равно придется сделать кластеризацию картинок по новой. Как вы решаете эту проблему?
>> не нужно заново запускать процесс на уже существующие в базе миллиарды.
Предположу, что у вас используется какой-то инкрементальный алгоритм кластеризации, который позволяет добавлять картинки в кластерную иерархию без перестройки всей структуры. Но ведь с какого-то момента добавленных данных станет так много, что все равно придется сделать кластеризацию картинок по новой. Как вы решаете эту проблему?
0
Пару месяцев назад писал статью для решения такой проблемы с помощью PostgreSQL:
leopard.in.ua/2012/06/01/effective-similarity-search-in-postgresql/
leopard.in.ua/2012/06/01/effective-similarity-search-in-postgresql/
0
Какой именно из алгоритмов выделения фич и вычисления дескрипторов используете? SURF, ORB что-то другое?
0
Есть еще SIFT.
А вот гораздо более интересный вопрос — что используется для поиска ближайших соседей?
А вот гораздо более интересный вопрос — что используется для поиска ближайших соседей?
0
Напишите пожалуйста, в конце статьи, список используемых технологий, а-ля в научных статьях пишут список использованной литературы.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Кластеризация дубликатов в поиске по картинкам