VladVin Apr 4 2021 at 10:49

Как построить свою систему поиска похожих изображений

10 min

35K

Search engines * Image processing * Artificial Intelligence

+46

Comments 33

Sakhar Apr 4 2021 at 14:40

Спасибо большое за статью! Узнал новое про r-mac пудинг. Используются ли в работе трансформеры и attention модели? Особенно интересны модели, связывающие текст и картинки. вроде бы из общих соображений CLIP, от
openai например, должен особенно хорошо значимые фичи выделять

VladVin Apr 4 2021 at 16:42

Спасибо за отзыв.
Да, CLIP может использоваться для мэтчинга текст-изображение. Сейчас мы используем трансформеры для вычисления объединённого эмбеддинга по нескольким фотографиям чертежей с разных видов. Аналогично, можно применять к товарам маркетплейса.

Visual Transformer как бэкбон у нас пока не показал качество лучше, чем ResNet/EfficientNet, но ещё вернёмся к более глубокому анализу

ArjLover Apr 4 2021 at 17:13

А tineye работает на похожем алгоритме? Я несколько лет назад был сильно удивлен когда он по моей картинке нашел оригинальную и оказалось что мой экземпляр — это кроп от оригинала. Это уже не похоже на алгоритм фингерпринта.

VladVin Apr 4 2021 at 17:21

Думаю, что tineye работает примерно так же. В простейшем случае он вообще может использовать что-то типа perceptual hash, в этой библиотеке есть несколько подобных алгоритмов: https://github.com/idealo/imagededup

ArjLover Apr 4 2021 at 19:25

А в какой БД можно хранить миллиарды таких хешей и еще искать близкие по дистанции?

VladVin Apr 4 2021 at 20:09

Можно все в тех же индексах, которые я указал — nmslib, faiss, annoy, scann. Если нужно постоянное хранилище, то в принципе и обычная база подойдёт типа Postgres. Но понятно, в ней поиск делать не надо, просто выгружать/загружать хэши

ArjLover Apr 6 2021 at 20:24

Непонятно логика, зачем хранить отдельно от поиска. Каждый раз когда надо поискать — надо куда-то загружать? А индексы сами не могут выступить в качестве БД с записью на диск или они только in-memory?

VladVin Apr 8 2021 at 21:10

Сразу не заметил комментарий. Да, отдельная БД нужна для сохранения на диск. Это делается на этапе инициализации / добавления новых данных на индексирование, так что не поиске не делается

nerumb Apr 5 2021 at 08:45

Можно посмотреть на https://www.milvus.io/.

VladVin Apr 5 2021 at 09:30

Да, давненько про него слышал, ещё не дошли руки попробовать. Спасибо!

Nepherhotep Apr 5 2021 at 15:01

Они сделали алгоритм задолго до всех этих нейроночек, не думаю, что они стали бы что-то менять, что итак работает.

Nepherhotep Apr 4 2021 at 23:44

Очень интересная статья, спасибо!
А как вообще выглядит датасет для тренировки? Это множество фотографий на каждый объект? И как вы его размечали?

VladVin Apr 5 2021 at 09:30

Спасибо!
У нас около 600 тыс изображений, размеченных следующим образом. Эксперты выполняли поиски в базе логотипов, используя один из существующих алгоритмов поиска (фильтрация по классам, словесный поиск и пр.). Для каждого изображения проставлено, в каких поисках оно встречалось. Одно и то же изображение могло встретиться в разных поисковых выдачах. Из этого мы сделали multilabel разметку, и дальше уже учили парные лоссы с разными алгоритмами hard negative mining. Кстати, могу упомянуть метод XBM для майнинга (https://arxiv.org/abs/1912.06798) — нам очень хорошо зашёл

Nepherhotep Apr 6 2021 at 18:43

Еще вопрос, а можете порекомендовать конкретную архитектуру, которая сравнивает вектора фичей от изображений?

kvush Apr 7 2021 at 09:45

Дтасет тут зависит от выбранной функции потерь, если это Contrastive Loss то генерируются пары, положительные и отрицательные. Если triplet loss, то три изображения — анкор, поизитв, негатив. Каждая такая пара или тройка это уже и есть разметка.

UFO landed and left these words here

VladVin Apr 5 2021 at 15:03

Спасибо за отсылку к классике. Действительно, BoW может помочь при низком объёме данных и его проще дообучать на новый тип объектов — требуется меньше данных опять же. В нашем случае данных было достаточно и deep learning поднял качество очень существенно

snakers4 Apr 6 2021 at 05:30

Есть мнение, что поиск Яндекса просто еще не успел закрыть некоторые киллер-фичи от публики по ряду причин. На Хабре кто-то прикладывал свои наблюдения, что Google мол раньше искал по лицам например — а потом вдруг раз и перестал.

Но это как говорится — неточно. Уверен, что если поискать будут даже статьи на эту тему.

snakers4 Apr 6 2021 at 05:24

Contrastive Loss
Triplet Loss
N-tupled Loss
Angular Additive Margin (ArcFace)

Интересно, что автор столько внимания уделил разным "модным" лоссам, но не уделил внимания слону в комнате. В прошлом году вышла такая прекрасная статья — https://arxiv.org/abs/2003.08505

Срыв покровов — модные методы особо не играют особой роли, роль играет сама сетка, аугментации и так называемый curriculum и то, как мы управляем "сложностью" тренировки.

VladVin Apr 6 2021 at 10:18

Спасибо за статью, посмотрю. Если говорить про парные лоссы, то я не стал в этой статье упоминать метод XBM (https://arxiv.org/abs/1912.06798) с CVPR2020, ориентируясь на более поверхностный материал. Хотя метод действительно мощно поднимает качество. Думаю, глубокий анализ сходимости обучения лучше провести в отдельной статье

VladVin Apr 8 2021 at 10:34

Прочитал статью. Красивый разнос. Мы тоже наблюдали незначительную разницу при переходе на более современный метод. Наконец-то кто-то оценил вклад методов через кросс-валидацию и универсальный подход к обучению. Причем этот кто-то — разработчик PML. Еще бы такой анализ провести по пулингам, а не только по лоссам

snakers4 Apr 8 2021 at 10:40

Я так понимаю что статья была написана примерно одновременно с либой во время его стажировки
Оно там у него сильно разрослось с тех пор
Но прикольно, что оно есть

snakers4 Apr 6 2021 at 05:27

Пример реализованного проекта
Примеры работы
Валидация
Метрики

Не хочу показаться занудой, список чужих работ / ссылок / идей тут адекватный (не считая момента, который указал выше).

Но возникает очевидный вопрос — какова цель статьи, где результаты работы и наработки автора и его команды? Реальные метрики на каких-то датасетах, публичные (не обязательно на 100% OSS с репликацией) релизы pre-trained сеток, публикации датасетов, какие-то веб / колаб демки? Что угодно?

Мы тоже много публикуем на Хабре, но мы ставим цель каждым постом реально сделать какой-то вклад, вот буквально пара примеров:

Тут мы делаем уникальную некоммерческую систему синтеза речи и делимся ей со всем комьюнити бесплатно — https://habr.com/ru/post/549480/
Тут мы публикуем модели распознавания речи, которые лучше премиум моделей Google — https://habr.com/ru/post/519564/

VladVin Apr 6 2021 at 10:00

Да, я читаю некоторые ваши статьи и канал в Телеграме. Хорошая работа.

На эту статью можно смотреть с другой перспективы — когда мы начинали разрабатывать систему поиска похожих изображений для первого клиента, было не совсем понятно, как это делать. Казалось бы, многие лоссы уже знали, с нейронками давно дружим. Но конкретно в специфике IR наверняка есть особенности, и нам приходилось собирать все по крупицам, читая статьи и интернет. Поэтому цель этой статьи донести общую структуру системы с небольшим числом конкретных рабочих идей в одном месте

VladVin Apr 6 2021 at 10:13

Выкладывать метрики был бы смысл, если мы делали замеры на публичных датасетах, как вы сказали. Но это надо корректно поставить эксперименты и вести полноценную исследовательскую работу с дальнейшей публикацией научной статьи. А чтобы просто узнать относительный прирост качества в каждом из методов, достаточно посмотреть сами статьи — в них есть все замеры на Oxford5k, CARS200, Stanford Online Products и пр.

snakers4 Apr 6 2021 at 10:21

Ну или как вариант запилить свои "in the wild" датасеты, если академические слишком всратые.

snakers4 Apr 6 2021 at 10:22

Идеология открытого чего-то еще подразумевает, что если кто-то просто выложил сетку "для логотипов" без датасета — от публики особо не убудет (кроме злых буратино), и может кто-то даже публично затестит.

Nepherhotep Apr 6 2021 at 18:35

В статье довольно неплохо описывается, как работает подобная система. Так что статья реально полезная и классная. Метрики, сетки и прочее часто закрыто NDА, так что такого и не ждем.

snakers4 Apr 6 2021 at 05:28

в компании EORA.AI

Интересно, раньше Хабр тупо банил за рекламные коммерческих компаний посты не в хабе "Я пиарюсь" или в платном корпоративном блоге.

Сейчас что-то изменилось в политике? Я тоже обратил внимание, что они стали меньше "душить" авторов, интересно почему. Я видел какую-то статью в блоге Хабра на эту тему, но у Хабра нет каких-то public values.

Корп блоги — ок, ализаровщина — ок, реклама гомеопатии или лженауки — тоже ок.

VladVin Apr 6 2021 at 10:13

Я общался с модератором, указать компанию в статье можно, а вот ссылку на сайт уже нельзя. И в этом есть логика — всё-таки от анонима статья выглядит недостаточно убедительной. А тут, у меня была возможность указать, что у нас есть некий опыт разработки таких систем

snakers4 Apr 6 2021 at 10:22

Прикольно

elejke Apr 7 2021 at 09:50

Отличная статья!

А REMAP для пулинга не пробовали в бою?

VladVin Apr 8 2021 at 09:56

Multi-scale эмбеддинг у нас стоит в бэклоге, но эту статью не видели. Классный подход, спасибо за ссылку!