Кластеризация дубликатов в Яндекс.Картинках

    Сегодня в клубе Яндекс.Субботник появилось интересное видео о том, как Яндекс обрабатывает изображения для исключения дубликатов. Рассказывает Александр Крайнов: он с 2000 года занимается проектами, связанными с обработкой медиаданных. В Яндексе отвечает за проекты, в которых задействовано компьютерное «зрение».

    О докладе
    Легко найти дубликаты среди тысяч картинок. Сложнее – среди миллионов. И совсем трудно – среди миллиардов. Чем выше полнота работы алгоритма, тем больше проблем. Но в то же время полнота кластеризации дубликатов – это основа качества поиска изображений.

    Думаю, многие не следят за этим клубом и мне кажется, что после этого видео есть над чем поразмыслить.
    Всем кому интересно — прошу под кат.



    Ссылка на презентацию в формате pdf.
    • +38
    • 6.3k
    • 8
    Share post
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 8

      +1
      Теперь я знаю точно, найти дубликат текстового документа в 100500 раз легче и быстрей.

      Спасибо, очень познавательно.
        0
        Прикольно. Сам, когда только изучал php, столкнулся с похожей задачей, но тогда просто уменьшал изображения до 7x6 px и сравнивал потекстово через similar_text. Оказывается, был близок к истине =)
        • UFO just landed and posted this here
          • UFO just landed and posted this here
            0
            Жаль я не был на субботнике, а то задал бы вопрос «как поведёт себя ваш алгоритм, если взять N картинок из поиска и склеить их горизонтально/вертикально?» — думаю, такое он не определит.
              0
              То о чем говорите вы, это скорее критическое отклонение от центра кластера и алгоритм сработает правильно, не отнеся это изображение ни к одному классу или отнеся его к классу шума.
              0
              Интересно было бы узнать, как определяются похожие прямоугольные области на картинках-полудубликатах после выделения фич.
                +1
                Интересно, а для нахождения дубликатов mp3 файлов есть какие то решения, может кто сталкивался?

                Only users with full accounts can post comments. Log in, please.