Комментарии 26
Усадьба-пионерлагерь затерянная между Москвой и Питером недалеко от Боровичей.
Как он это делает, не знаю
У Гугла большая база фотографий Panoramio. В одно время они тестировали функцию Look Around, когда на разных фото определялся один и тот же объект и можно было «перелетать» из фото в фото, осматривая объект с разных ракурсов.
По поводу текстов: cuneiform (бесплатная библиотека) работает примерно на том же уровне, что и гугл в ваших примерах.
Как он это делает, не знаю.
С помощью таких проектов как:
https://www.google.com/streetview/understand/
или
https://www.ingress.com/
Гугл получил неплохую базу данных с изображениями со всего мира…
Кстати вы не проверяли нет ли у этих фотографий geo-тегов?
Чет dlib подозрительно хорошо работает.
Что у них там сейчас используется для детектирования сейчас? Куча каскадов сразу, или они уже на сетки перелезли? (один каскад вряд ли сможет так уверено детектировать сильно повернутые головы, а dlib судя по приведенным картинкам справляется с этой задачей)
Если честно, меня немного его качество работы тоже удивило. С другой стороны на этом вот снимке dlib раза в 3-4 меньше лиц чем Google находит — https://hsto.org/files/68e/849/43e/68e84943e36c498a89f4532c374eaf95.jpg
Глянул исходники dlib'а, короче говоря они там юзают сразу 5 детекторов на HOG фичах: фронтальный, рожа слева, рожа справа, фронтально с поворотом рожи направо, фронтально с поворотом рожи налево (по градусам там что-то типа: 0, ±45, ±90). Сам пайплайн стандартный: строят пирамиду, по ней строят фичи, а потом бегут по ним скользящим окном и SVM'ом классифицируют. Не понятно только на каких базах тренировались.
а open source вариантов у нас все еще нет, решил поделится написанной (и сложенной в чулан)
расспознавалкой номерных знаков.
Брать тут https://bitbucket.org/neird/alpr.git.
Автор ответственности не несет и все такое.
Система была написана для целей логирования номерных знаков на пропусных пунктах парковок.
Код стоит рассматривать как тестовый прототип заслуживающий переписывания.
Тем не менее он рабочий и давал точность расспознавания на тестовом датасете (нет не поделюсь)
порядка 90-95% (по схеме правильно/неправильно).
Реально это библиотека которой на вход дается картинка на выход она дает номер.
'Пример' использования это autonum.py который читает видеопоток поток указанный в autonum.cfg и по получению get в консоль, распознает и выдает номер на текущем кадре.
Попробуйте эти тесты с MS Cognitive Services: https://www.microsoft.com/cognitive-services/en-us/computer-vision-api (поскрольте там на странице разные сервисы, к примеру, первый определяет контент по фото и справился куда лучше чем гугл и остальные на ваших фотографиях с кошками
1) "a white cat sitting on a bench"
2) "a cat sitting in front of a bowl of fruit"
Так что я бы не стал называть гугл безспорным лидером в machine vision ;-)
PS: а вижу вы нашли, но использовали только самый слабый сервис для сравнения.
*бесспорным :(
a vase with flowers in it
a little girl laying in the grass
a large clock tower towering over the city of london
a group of stuffed animals
Даже по одним таким названиям, кажется, я знаю, что у них за обучающая выборка была:)
Ну вы хотите много показывая какие-то хипстерские фото :) В обычном режиме справляется неплохо, я недавно даже демо для hololens делал: https://www.youtube.com/watch?v=Kq1NkrURTAo
Google Cloud Vision API. Будущее Computer Vision as a service настало?