Comments 20
Потратить время и ресурсы, но не получить профита это печально.
Тогда ведь уже был faiss и всякие навороты для СУБД, позволяющие делать моментальный поиск векторов разными метриками, всяко шустрей самописных велосипедов.
У меня тоже были мечтания о таком сервисе, но масштабами побольше — захватить твиттер и фейсбук, можно даже собирать имена, номера телефонов, социальные связи.
Самое сложное это воркеры, как ни странно, но общедоступная информация не доступна, поэтому паукам надо имитировать пользователей, долго и нудно вытаскивать информацию. Даже если учесть, что новые пользователи появляются медленней чем происходит индексация, мощности нужны впечатляющие, арендовать ботнет эффективней и дешевле, чем законно арендовать мощности датацентров.
145% у некоторых государств есть такие сервисы для спецслужб, социальные сети это просто потрясающий кладезь информации, которую пользователи сами несут.
Библиотека face_recognition, основанная на плюсовой DLib. Да, у них был такой момент, что они выиграли даже международное соревнование со своим алгоритмом, но с т.з пользователей это совсем не важно ведь, для них фича была именно в более-менее точном и быстром поиске профилей Вк по фото лица, а уж что там под капотом их мало интересует.
FindClone.
Помню, что, когда два года назад я запустил face_recognition, он одну фотографию обрабатывал за ~секунду, что много. А какая у вас получилась скорость обработки? Сколько/на скольки ядрах фотографий в секунду?
А так получается что есть люди первого сорта у которых есть кнопка и второго — без. И разрыв в возможностях только растёт.Я думаю, что в скором времени такой сервис появится в дарквебе, как всегда бывает с данными для спецслужб. Если не уже. Причем скорее всего это тот же findface.
Вопрос будет только в скорости доступа к этому счастью — Tor все-таки.
Еще любопытный момент, у dlib на CUDA и на AVX2 отличаются результаты вычисления вектора для одного и того же лица. Я спросил у автора библиотеки про это — он ответил что это не баг, а фича.
В целом это интересная тема для разобраться — но в дальнейшем она никак не пригодится. В облаках есть свои АПИ для этого, а в России чуть ли ни несколько коммерческих продуктов которые это умеют делать лучше чем dlib.
В дальнейшем можно было бы самому научить нейросеть на основе выкачанных данных — но видеокарты нынче дорогие
Ещё один поиск Вк по фото