Comments 14
Естественно, понадобилось найти более рациональное решение этой инфраструктурной задачи. И мы смогли это сделать.
И как же вы это сделали?
И как же вы это сделали?
Последнюю картинку надо наверх — куда больше народу пост прочитает.
А иногда в картинки могут внести некоторые изменения. Например, добавить водяные знаки или логотипы, изменить цвета или обрезать. Но этого будет недостаточно, чтобы считать это изображение новым.
Как же бесит когда в превьюшке видишь какой-нибудь демативатор с нечитаемо мелким текстом тыкаешь на него и получаешь исходную картинку без текста вообще
Как же бесит когда в превьюшке видишь какой-нибудь демативатор с нечитаемо мелким текстом тыкаешь на него и получаешь исходную картинку без текста вообще
«Для того чтобы компьютер мог «рассмотреть» эти фрагменты, их нужно перевести их в цифровой формат»
Написано как для 3х летних детей.
Так же не указаны ссылки на другие статьи:
company.yandex.ru/technologies/duplicates/
лекция:
habrahabr.ru/post/143667/
Написано как для 3х летних детей.
Так же не указаны ссылки на другие статьи:
company.yandex.ru/technologies/duplicates/
лекция:
habrahabr.ru/post/143667/
>> чтобы добавить и обработать 10 миллионов новых изображений…
>> не нужно заново запускать процесс на уже существующие в базе миллиарды.
Предположу, что у вас используется какой-то инкрементальный алгоритм кластеризации, который позволяет добавлять картинки в кластерную иерархию без перестройки всей структуры. Но ведь с какого-то момента добавленных данных станет так много, что все равно придется сделать кластеризацию картинок по новой. Как вы решаете эту проблему?
>> не нужно заново запускать процесс на уже существующие в базе миллиарды.
Предположу, что у вас используется какой-то инкрементальный алгоритм кластеризации, который позволяет добавлять картинки в кластерную иерархию без перестройки всей структуры. Но ведь с какого-то момента добавленных данных станет так много, что все равно придется сделать кластеризацию картинок по новой. Как вы решаете эту проблему?
Пару месяцев назад писал статью для решения такой проблемы с помощью PostgreSQL:
leopard.in.ua/2012/06/01/effective-similarity-search-in-postgresql/
leopard.in.ua/2012/06/01/effective-similarity-search-in-postgresql/
Какой именно из алгоритмов выделения фич и вычисления дескрипторов используете? SURF, ORB что-то другое?
Есть еще SIFT.
А вот гораздо более интересный вопрос — что используется для поиска ближайших соседей?
А вот гораздо более интересный вопрос — что используется для поиска ближайших соседей?
Напишите пожалуйста, в конце статьи, список используемых технологий, а-ля в научных статьях пишут список использованной литературы.
Sign up to leave a comment.
Кластеризация дубликатов в поиске по картинкам