AivanF Mar 20 2021 at 12:02

Ещё один поиск Вк по фото

7 min

64K

Search engines * Python * Big Data * DevOps * Artificial Intelligence

+27

Comments 20

rsashka Mar 20 2021 at 12:59

Спасибо, было интересно, лишь бы теперь вас не посадили (сарказм).

AivanF Mar 20 2021 at 13:04

Благодарю :)

IAChernyshov Mar 21 2021 at 10:29

За что, собственно, должны посадить?

leventov Mar 21 2021 at 12:01

del

Bonio Mar 20 2021 at 13:18

Как оптимизировать поиск картинок по базе перцептивных хешей в mysql? Там тоже идёт сравнение расстояния между хешами и делаются битовые операции между искомым хешем и всеми сохраненными в базе. Делается одим запросом, но при этом обходится вся база целиком.

UFO landed and left these words here

AmberSP Mar 21 2021 at 18:02

nmslib, annoy

Celsius Mar 20 2021 at 13:26

Потратить время и ресурсы, но не получить профита это печально.
Тогда ведь уже был faiss и всякие навороты для СУБД, позволяющие делать моментальный поиск векторов разными метриками, всяко шустрей самописных велосипедов.

У меня тоже были мечтания о таком сервисе, но масштабами побольше — захватить твиттер и фейсбук, можно даже собирать имена, номера телефонов, социальные связи.
Самое сложное это воркеры, как ни странно, но общедоступная информация не доступна, поэтому паукам надо имитировать пользователей, долго и нудно вытаскивать информацию. Даже если учесть, что новые пользователи появляются медленней чем происходит индексация, мощности нужны впечатляющие, арендовать ботнет эффективней и дешевле, чем законно арендовать мощности датацентров.

145% у некоторых государств есть такие сервисы для спецслужб, социальные сети это просто потрясающий кладезь информации, которую пользователи сами несут.

al_sh Mar 20 2021 at 14:38

Для поиска евклид/косинус пользуют что-то типа faiss/HNSW, иначе, довольно скоро станет больно любой СУБД

UFO landed and left these words here

AivanF Mar 20 2021 at 16:38

Библиотека face_recognition, основанная на плюсовой DLib. Да, у них был такой момент, что они выиграли даже международное соревнование со своим алгоритмом, но с т.з пользователей это совсем не важно ведь, для них фича была именно в более-менее точном и быстром поиске профилей Вк по фото лица, а уж что там под капотом их мало интересует.

kova7ev Mar 20 2021 at 18:27

FindClone.

Destructive Mar 21 2021 at 04:51

Это он и есть.

galqiwi Mar 20 2021 at 18:39

Помню, что, когда два года назад я запустил face_recognition, он одну фотографию обрабатывал за ~секунду, что много. А какая у вас получилась скорость обработки? Сколько/на скольки ядрах фотографий в секунду?

UFO landed and left these words here

nidalee Mar 21 2021 at 04:17

А так получается что есть люди первого сорта у которых есть кнопка и второго — без. И разрыв в возможностях только растёт.

Я думаю, что в скором времени такой сервис появится в дарквебе, как всегда бывает с данными для спецслужб. Если не уже. Причем скорее всего это тот же findface.
Вопрос будет только в скорости доступа к этому счастью — Tor все-таки.

DmitryIQB Mar 21 2021 at 15:52

Отличная статья! Респект)

AivanF Mar 21 2021 at 15:52

Спасибо :)

SerJ_82 Mar 22 2021 at 12:02

Так ведь Файндфейс до сих пор работает, только называется findclone))
Сколько писал разрабам — вообще не отвечают… Интересовала возможность настройки поисковой выдачи.

alexeishch Mar 21 2021 at 21:41

Довольно интересно. Я пробовал dlib/facerecognition — но питон мне меньше нравится в итоге я питоновские байдинги переделал в extern C и импортировал в C#. Вышло довольно неплохо, но точность высокая только для хороших фотографий, когда лицо не повернуто. Иначе там получается много с дистанцией ~0.5 что уже ближе чем значение отсечки 0.6, но тем не менее степень похожести недостаточная.
Еще любопытный момент, у dlib на CUDA и на AVX2 отличаются результаты вычисления вектора для одного и того же лица. Я спросил у автора библиотеки про это — он ответил что это не баг, а фича.

В целом это интересная тема для разобраться — но в дальнейшем она никак не пригодится. В облаках есть свои АПИ для этого, а в России чуть ли ни несколько коммерческих продуктов которые это умеют делать лучше чем dlib.

В дальнейшем можно было бы самому научить нейросеть на основе выкачанных данных — но видеокарты нынче дорогие