Комментарии 79
Не будучи специалистом, правильно ли я понял, что в основе лежит идея в слабой изменяемости объекта слежения за короткий промежуток времени (судя по фреймам с объектами в правой части видео)?
Определенно будет работать в Google
Выглядит классно, жаль нет хотя бы общего описания. А главное не показаны видео с ошибками распознавания (а то одни удачные примеры).
Теоретически, по крайней мере то чем я сам подумываю заняться, достаточно при успешном определении кадра (определенное пороговое значение) добавлять этот кадр в обучающую выборку и провести дополнительное обучение.
Теоретически, по крайней мере то чем я сам подумываю заняться, достаточно при успешном определении кадра (определенное пороговое значение) добавлять этот кадр в обучающую выборку и провести дополнительное обучение.
Ошибки распознавания видны на части ролика относящейся к пальцам, там видно что трекинг прекращался но возобновлялся при возвращении пальцев в начальное положение. И из-за обучения в процессе улучшался дальнейший трекинг.
На ютубе там у него ролики есть с процессом обучения, и там как раз прилично ложных срабатываний есть
>> Выглядит классно, жаль нет хотя бы общего описания.
А на сайт его вы заходили? Там PDF-ки есть
А на сайт его вы заходили? Там PDF-ки есть
НЛО прилетело и опубликовало эту надпись здесь
За что? За то что он заюзал OpenCV либу? Или SURF?
НЛО прилетело и опубликовало эту надпись здесь
Распознавать фиксированный образ не проблема.
Но мне вот интересно как он масштабирование образа делает. Судя по всему, у него это шустро выходит.
Но мне вот интересно как он масштабирование образа делает. Судя по всему, у него это шустро выходит.
Это через SURF алгоритм, скорее всего. На этом алгоритме даже такой проект есть www.tineye.com/ — будет искать вам похожие изображения в разных разрешениях и цветах. У парня просто в динамике это сделано.
На его сайте есть ряд пдфок. Читая их и связанные с ними по референсам выяснилось, что он использует фичи 2bit Binary Patterns (2bitBP). Суть в том что это квантированные до 2х2 градиенты. В общем почти то же самое что LBP но вместо 3х3, используется окрестность 2х2, это дает возможность быстро считать их значения на различных масштабах через интегральную матрицу. Подробнее тут: info.ee.surrey.ac.uk/Personal/Z.Kalal/Publications/2009_olcv.pdf
по сути — ничего революционного, но коммерческий успех его творение приобретет
Там есть видео с ошибками (про чашку)
Очень интересный алгоритм. Применить бы его на поиск людей среди толпы, по предварительно загруженной фотографии, а еще лучше группы людей. Или поиск людей по частям тела, с высоты птичьего полета над зоной бедствия. И очень не хотелось бы такую вещь в военных целях (авто наведение).
То, что делают российские разработчики из Intel R&D в Нижнем Новгороде, это замечательно. Но то, что сделал этот парень не имея большой команды и финансирования, завораживает.
НЛО прилетело и опубликовало эту надпись здесь
А что он сделал? Подключил либу с реализацией SURF алгоритма? На ютубе полно таких примеров, чем этот чел круче других?
Насколько я помню SURF в чистом виде не может адаптивно обучаться. Думаю тут немного посложнее все.
Возможно он создает словари позитив/негатив фич и потом их модифицирует за счет каких-либо эвристик(например, предметы не склонны телепортироваться). Надо будет поискать его работы. Вроде интересно, но не революционно конечно.
Возможно он создает словари позитив/негатив фич и потом их модифицирует за счет каких-либо эвристик(например, предметы не склонны телепортироваться). Надо будет поискать его работы. Вроде интересно, но не революционно конечно.
Сейчас у нас в УПИ в распознавании в одной работе получили результаты, превосходящие мировые. Будем ждать публикацию…
Чувствую, что парень заработает не хилую кучу бабла.
Хм, интересно. Оказывается у чехов не только пиво классное.
OpenCV в динамике?
Я далек от технологий распознавания образов и по-этому для меня это ВАУ. Но неужели ещё не было реализаций такой системы (коммерческая, научная, военная)? И может кто-нибудь популярно объяснит в чем фишка конкретно этого алгоритма (в прикладной реализации)?
Наверняка что-то подобное реализовано в военных целях, но не разглашается по определённым причинам.
фишка в том что алгоритм не надо обучать на сотнях тестовых изображений одного ключевого предмета в разных ракурсах, он сам по мере налюдения заполняет базу этим варинатами. Собственно идея свежая и полезная в определенных случаях. Но обучение с учителем конечно надежнее, сложные задачи которые решает kinect, предложенным способом не решить
Смотреть ключевое слово surf algorithm на ютубе www.youtube.com/results?search_query=surf+algorithm&aq=1
Фамилии руководителей небезызвестные в мире распознавания образов — Mikolajczyk и Fua. Подробности реализации должны быть в публикациях, ссылки на которые есть на его странице.
В полнейшем шоке… Красавец. Это же блин надо еще и разработать систему самообучения. Панда вообще шокировала :).
а если 2 панды?
ну у него идет слежка и проработка алгоритма на один объект. С двумя объектами будет посложнее, но думаю не проблема. По сути можно запустить просто 2 процесса параллельно, но он будет ошибаться когда 2 панды будут пересекаться. Но думаю если понадобится, он напишет :)
У него есть видео с двумя как минимум сильно похожими объектами www.youtube.com/watch?v=eNqk-eN5BV8 — все хорошо
Парень молодец!
И видео интересное и динамичное получилось.
И видео интересное и динамичное получилось.
по видео видно — он одержимый. по хорошему естественно
Интересно, а если картинка с 2-х камер или больше идет, по этим данным можно одно, но более стабильное изображение получить. То есть сращивать 2 картинки.
Я наверно буду гореть в аду, но рано или поздно это будет стоять в ракете!
Что значит параметр «s» на видео?
Алгоритм интересный, но был бы на много занимательнее, если бы хорошо функционировал на слабых машинах (неттопах). Например, для съемки динамических объектов двумя камерами (для 3D).
Кстати, если смотрели внимательно видео, там перечислено откуда он брал инфу для разработки своего алгоритма, это ICPR и IbPRIA конференции сообществ по распознаванию образов из разных стран
выглядит очень интересно, я бы сказал, что даже охеренно, но такое видеть тут не очень любят, но всё равно охеренно, стабилизация видео по определённому предмету впечатляет.
Блин, теперь понятно кто моему одногрупнику диплом писал, потому что ну не могу он это написать сам
Вот, посмотрите, наши ребята делают, из Владивостока http://www.rhondasoftware.com/software-solutions/computer-vision и вот блог www.computer-vision-software.com
Очень круто. Впечатляет больше, чем видео в топике
Ну да, вы еще это с американскими военными разработками сравните. У компании из Владивостока, наверное, тоже крутой алгоритм, но они его позиционируют как именно для учета людей в зоне обзора. Студент-чех, я полагаю, работал один, и добился хороших результатов, которыми он может по праву гордиться, и придумал для алгоритма достаточно много применений.
Может иногда можно просто порадоваться за парня, а не меряться пенисами?
Может иногда можно просто порадоваться за парня, а не меряться пенисами?
Мы как раз ищем человека/людей в команду по разработке алгоритма для отслеживания объектов на видео. Пользуясь такой темой (раз уж тут собрались люди разбирающиеся в топике), хочу попросить, порекомендовать кого-нибудь, кто хотел бы работать в нашей компании. Или может кто-нибудь из присутствующих заинтересуется?
Автор всё-таки выложил исходные коды: github.com/zk00006/OpenTLD
Отслеживание видео сразу по нескольким камерам:
habrahabr.ru/company/synesis/blog/117746/
Буду благодарен за комментарии.
habrahabr.ru/company/synesis/blog/117746/
Буду благодарен за комментарии.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Отслеживание объектов на видео