Pull to refresh

«Выглядит похоже». Как работает перцептивный хэш

Reading time 6 min
Views 116K
Image processing *
Translation
За последние несколько месяцев несколько человек спросили меня, как работает TinEye и как в принципе работает поиск похожих картинок.

По правде говоря, я не знаю, как работает поисковик TinEye. Он не раскрывает деталей используемого алгоритма(-ов). Но глядя на поисковую выдачу, я могу сделать вывод о работе какой-то формы перцептивного хэш-алгоритма.
Читать дальше →
Total votes 149: ↑145 and ↓4 +141
Comments 46

Еще одна версия алгоритма сравнения изображений

Reading time 4 min
Views 29K
Algorithms *
Эта статья с месяц висела у меня в черновиках, пока кто-то мне наконец не привел карму к тонусу. Не знаю кто, но спасибо тебе

Сегодня, зайдя в очередной раз на хабр, наткнулся на вот эту интересную статью. Там описывается алгоритм хэширования изображений. Когда я читал эту статью, мне пришла в голову мысль, как можно изменить этот алгоритм, чтобы он кушал изображения, у которых сильно различается, например, яркость (но сами изображения при этом идентичны).
Читать дальше →
Total votes 46: ↑34 and ↓12 +22
Comments 23

Алгоритм быстрого нахождения похожих изображений

Reading time 8 min
Views 59K
Image processing *

Введение


Недавно наткнулся на статью, размещенную на Хабрахабре, посвященную сравнению изображений «Выглядит похоже». Как работает перцептивный хэш. Так как я сам достаточно долго занимался этой тематикой (являюсь автором программы AntiDupl), то мне захотелось поделиться здесь своим опытом по данному вопросу. В статье я приведу два варианта алгоритма сравнения похожих изображений — базовый и улучшенный. Все они были проверены автором на практике в рамках указанного выше проекта. Изложение мое будет вестись без строгих доказательств, сложных формул и специальной математической терминологии. Надеюсь, что читатели простят меня за это.

Базовый Алгоритм


Мера схожести изображений


При сравнении похожих изображений первым встает вопрос: что считать мерой схожести изображений? Очевидно, что это величина имеет значение обратное различию изображений друг от друга. Следственно нужно выбрать некую метрику, характеризующую различие изображений друг от друга. Тогда схожими изображениями будут считаться изображения, отличие между которыми меньше некоторого порога. Для изображений с одинаковыми габаритами, обычно такой мерой различия служит среднеквадратическое отклонение пикселей одного изображения от другого. Хотя конечно, нам ни что не мешает выбрать другую метрику, например усредненную абсолютную разность пикселей изображений друг от друга.
Читать дальше →
Total votes 57: ↑55 and ↓2 +53
Comments 20

Использование каскада Хаара для сравнения изображений

Reading time 4 min
Views 71K
Algorithms *Image processing *
image

Признаки Хаара, про которые я расскажу, известны большинству людей, которые так или иначе связаны с системами распознавания и машинного обучения, но, судя по всему, мало кто использует их для решения задач вне стандартной области применения. Статья посвящена применению каскадов Хаара для сравнения близких изображений, в задачах сопровождение объекта между соседними кадрами видео, поиска соответствия на нескольких фотографиях, поиска образа на изображении и прочих подобных задач.
Total votes 79: ↑73 and ↓6 +67
Comments 19

Поиск кропнутых дубликатов изображений с помощью перцептуальных хешей

Reading time 6 min
Views 69K
Image processing *
В этой статье пойдет речь о том, как решалась небольшая задачка поиска дубликатов по фрагменту или кропу картинки.



Читать дальше →
Total votes 129: ↑118 and ↓11 +107
Comments 39

Нестандартное применение IT в быту: парсинг, перцептивный хеш, сравнение изображений = оптимизация расходов

Reading time 6 min
Views 42K
PHP *Programming *Image processing *
В этой статье хочу поделиться интересной историей, о необычном решении одной интересной задачи, которая попалась мне год назад. Всё описанное в статье делалось, прежде всего, «just for fun» и из чистого академического интереса…
Дело было год назад, как раз было свободное время и желание сделать что-нибудь полезное. Явно был некоторый интеллектуальный голод и острая нехватка чего-нибудь нового, какой-нибудь интересной задачи… Отсюда и попытки прилепить велосипед даже туда, куда он вообще не требовался… Собственно, таковым велосипедом и является всё нижеописанное…

1. Задача


На одном торгово-закупочном предприятии, достаточно остро стоял вопрос оптимизации закупок. У предприятия было несколько десятков основных поставщиков, но при этом у многих поставщиков пересечение товаров достигало 20-30%, а цены у всех разные. К сожалению, большинство товаров закупалось «по старой памяти», например привыкли, что товары группы A поставляет поставщик X, а товары группы Б поставщик Y, хотя если отбирать товары не группами, а штучно, то можно не слабо экономить. Для наглядности, покажу на примере:
Читать дальше →
Total votes 107: ↑104 and ↓3 +101
Comments 32

Некоторые методы поиска нечетких дубликатов видео

Reading time 11 min
Views 19K
Data Mining *Algorithms *Image processing *
Существует достаточно широкий круг задач, где требуется анализ, аудио-визуальных моделей реальности. Это относится и к статическим изображениям, и к видео.

image


Ниже приведен небольшой обзор некоторых существующих методов поиска и идентификации нечетких дубликатов видео, рассмотрены их преимущества и недостатки. На основе структурного представления видео построена комбинация методов.
Обзор совсем небольшой, за подробностями, лучше обращаться к первоисточникам.
Подробности
Total votes 31: ↑31 and ↓0 +31
Comments 10

Как бороться с репостами или пара слов о перцептивных хешах

Reading time 11 min
Views 29K
Programming *Image processing *
Sandbox
В этой публикации речь пойдет о подходах к построению перцептивный хешей изображения и возможностях их использования (например, поиск дубликатов).

перцептивный хэш-алгоритмы описывают класс функций для генерации сравнимых хэшей. Они используют различные свойства изображения для построения индивидуального «отпечатка». В дальнейшем эти «отпечатки» можно сравнивать друг с другом.

Если хэши отличаются, значит, данные разные. Если хэши совпадают, то данные, скорее всего, одинаковые (поскольку существует вероятность коллизий, то одинаковые хэши не гарантируют совпадения данных). В этой статье речь пойдет о нескольких популярных методах построения перцептивный хешей изображения, а также о простом способе борьбы с коллизиями. Всем кому интересно, прошу под кат.
Читать дальше →
Total votes 55: ↑54 and ↓1 +53
Comments 26

Синтез изображений с помощью глубоких нейросетей. Лекция в Яндексе

Reading time 15 min
Views 47K
Яндекс corporate blog Entertaining tasks Algorithms *Image processing *
Пусть в блоге Яндекса на Хабрахабре эта неделя пройдет под знаком нейронных сетей. Как мы видим, нейросети сейчас начинают использоваться в очень многих областях, включая поиск. Кажется, что «модно» искать для них новые сферы применения, а в тех сферах, где они работают уже какое-то время, процессы не такие интересные.

Однако события в мире синтеза визуальных образов доказывают обратное. Да, компании еще несколько лет назад начали использовать нейросети для операций с изображениями — но это был не конец пути, а его начало. Недавно руководитель группы компьютерного зрения «Сколтеха» и большой друг Яндекса и ШАДа Виктор Лемпицкий рассказал о нескольких новых способах применения сетей к изображениям. Поскольку сегодняшняя лекция — про картинки, то она очень наглядная.


Под катом — расшифровка и большинство слайдов.

Total votes 87: ↑84 and ↓3 +81
Comments 10

Собственный алгоритм 2. Поиск похожих изображений

Reading time 2 min
Views 6.3K
Algorithms *Image processing *Mathematics *
В своей первой статье на Хабре, я рассказал о своем алгоритме для поиска похожих изображений. Сегодня я хочу рассказать о второй (улучшенной) версии своего алгоритма.

Статья будет несколько короче предыдущей т.к. расскажу только об отличиях двух алгоритмов. Поэтому желательно прочесть предыдущею статью, что бы «быть в теме».
Читать дальше →
Total votes 12: ↑7 and ↓5 +2
Comments 10

Как фотографирует новый Honor 10. Сравниваем с Huawei P20 и iPhone 7 Plus

Reading time 5 min
Views 98K
Gadgets
Привет, Geektimes! Ваша дорогая редакция 15 мая присутствовала на презентации нового смартфона — Honor 10. Он уже продается в Китае, и наверняка его уже кто-то возит в Россию, но теперь появилась официальная версия, которая будет продаваться за 27 или 30 тысяч рублей. По нынешним меркам линейка все еще относительно бюджетная, но гаджеты в ней обладают топовыми характеристиками. Под катом мы поделимся первыми впечатлениями и сравним возможности встроенной камеры новинки с флагманским Huawei P20 и уже не молодым, но все еще актуальным iPhone 7 Plus.

Total votes 16: ↑13 and ↓3 +10
Comments 25

Тестирование Samsung Galaxy S10 — когда смартфоны по возможностям догонят фотокамеры?

Reading time 6 min
Views 16K
Mobile App Analytics *Gadgets Smartphones Photographic equipment The future is here
Привет, Хабр.

Как и наверно почти все фотолюбители, я с некоторым скепсисом отношусь к фотосъемке на мобильные телефоны. Все знают про маленькие матрицы, простую оптику, и все такое. С другой стороны, нельзя не признать, что возможности мобильной фотографии совершенствуются, матрицы становятся менее шумными, в смартфонах появляются оптическая стабилизация, и так далее. И наконец, когда Samsung анонсировала новый смартфон с тремя камерами (широкоугольной, обычной и теле), я таки не удержался и решил что «пора брать».


Nokia 9 PureView — тремя камерами смартфоны уже не ограничиваются

Как это работает, и какие возможности дает фотолюбителю современный смартфон, подробности под катом. Осторожно траффик.
Total votes 28: ↑23 and ↓5 +18
Comments 52

Автоматизация выявления модификаций в образе договорных документов с помощью модели N-грамм

Reading time 12 min
Views 1.8K
Smart Engines corporate blog Algorithms *Image processing *Mathematics *Artificial Intelligence


Каждый современный человек знает о том, что подписывать какой-либо документ нужно не раньше, чем его прочитал. Нарушившие это несложное правило иногда удивляются неожиданным последствиям, которых можно было бы избежать, если до подписания изучить документа, включая то, что написано мелким шрифтом. Уловки в договорах со стороны поставщиков услуг используются как составная часть анекдотов и кинофильмов. Например, в фильме «Ослеплённый желаниями» главный герой расторг весьма невыгодную сделку с дьяволом, несмотря на незнание условий расторжения договора, описанного в статье 147, параграфа 3, 3-ей части договора. Подобная ситуация иногда возможна в реальной жизни с поставщиками услуг. В интернете можно найти описание курьёзных случаев, когда клиент банка изменил условия договора в свою пользу, и это явилось неожиданностью для банка. В сегодняшней статье мы расскажем про крайне полезный для банков и других кредитных организаций алгоритм, позволяющий в автоматическом режиме выявлять внесенные модификации в образах договорных документов. Так что заглядывайте под кат!
Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Comments 2

iPhone 11 Pro Max против 12 Pro Max: стоит ли того новая камера

Reading time 4 min
Views 49K
Gadgets Smartphones Photographic equipment

У нас были айфоны 11 и 12 Pro Max, шесть объективов, один лидар для оценки расстояния до предметов, две разных системы стабилизации, нейросети для постобработки фото и целая куча разнообразных условий съёмки. Не то, чтобы все это было категорически необходимо в тесте камер, но если уж начал сравнивать фотки, к делу надо подходить серьезно.

Читать далее
Total votes 36: ↑32 and ↓4 +28
Comments 43

Приятная капча и ее решение

Reading time 5 min
Views 3.5K
Working with icons *Python *Image processing *
Tutorial

В статье пойдет речь о решении визуально привлекательной капчи, решение которой не только немного расслабляет и погружает в транс медитации, но также позволяет немного стряхнуть пыль с фреймворка selenium для python, а также пакета opencv. Именно эти инструменты и будут использоваться на капче, которая относится к так называемому виду капч «с перетаскиванием». Но, для начала, присказка.
Читать дальше →
Total votes 7: ↑5 and ↓2 +3
Comments 2