m1rko Jan 6 2018 at 11:07

Итоги развития компьютерного зрения за один год

12 min

29K

Algorithms * Machine learning * Image processing * Working with video *

Translation

+16

Comments 14

dtyurev Jan 6 2018 at 15:50

Часто пишут о том, что в задачах распознавания нейросети давно превзошли людей. Однако, если присмотреться к кадрам из ролика про 007, то видно много ошибок:
— Цепочка зданий определились, как поезд
— Ворота снова определились, как поезд
— Свето-теневой рисунок на полу определился, как кровать
— Человек на мотоцикле часто определяется, как person целиком (вместе с мотоциклом)
Причины ошибок вполне понятны — человек может рассмотреть картинку более внимательно, обдумать что может быть, а чего не может. (Если это видео, то ещё и учесть перемещение объектов.) Но тогда о каком превосходстве НС над человеком в распознавании объектов идёт речь?
Если человека попросить только глянув на картинку быстро сказать что это, то он, вероятно, совершит точно такие же ошибки.

Roman_Kh Jan 6 2018 at 21:16

YOLO предназначена для скорости, а не точности, причем не только распознавания, но и локализации.

видно много ошибок

четыре — это не много. Не забывайте, что нейросеть определила правильно сотни тысяч объектов и лишь в нескольких случаях ошиблась.
Человек бы размечал это видео много лет и тоже бы наошибался.

о каком превосходстве НС над человеком в распознавании объектов идёт речь?

скорость и точность

vics001 Jan 7 2018 at 01:04

Ошибки tracking не то, что человек, многие животные не делают. Вообще, распознавание объектов — это вопрос эволюции, если бы животные не распознавали объекты быстро и четко, они давно были бы съедены.
Сегодня любая из эти нейросетей на антилопе, была бы съедена за неделю.

Roman_Kh Jan 7 2018 at 10:36

Ошибки tracking не то, что человек, многие животные не делают.

Да, ладно, глупости-то не говорите. Люди вечно от кустов шарахаются и вообще от любых быстро двигающихся пятен, влепляются во все подряд, автомобилисты насмерть сбивают велосипедистов.
Почитайте, как устроено зрение — это очень не точный инструмент, но быстрый. Потому что лучше ошибиться и выжить, чем внимательно разглядеть и принять верное решение, но слишком поздно.

Сегодня любая из эти нейросетей на антилопе, была бы съедена за неделю.

Сегодня нейросети лучше людей управляют автомобилями, несравнимо лучше играют в шахматы, шашки, го, нарды и многие другие игры.

Zifix Jan 7 2018 at 09:00

А какие сети заточены на точность в ущерб скорости, и насколько они медленнее?

Roman_Kh Jan 7 2018 at 15:06

Вот здесь есть список типовых архитектур для классификации и их метрики качества и скорости — https://github.com/taehoonlee/tensornets#performances

dtyurev Jan 7 2018 at 12:09

Скорость — это, безусловно, очень полезно, но сначала всё-таки хотелось бы добиться точности не хуже, чем у человека. Особенно, если делаются громкие заявления (не в этой статье) о достижении superhuman способности в распознавании. Прошу подсказать знающих людей: существуют ли на данный момент сети, не совершающие настолько грубых ошибок (чтобы дома называть поездом, а свет на полу — кроватью)?

Roman_Kh Jan 7 2018 at 15:09

Во-первых, бывают дома похожие на поезда, а поезда похожие на дома. И что из этого считать домом, а что поездом?
Во-вторых, в датасетах тоже бывают ошибки, что очевидным образом влияет на качество распознания сетью и на точность самой оценки точности распознавания.

Точность уже давно лучше, чем у человека. Примеры и метрики — https://github.com/taehoonlee/tensornets#performances

dtyurev Jan 7 2018 at 16:14

>бывают дома похожие на поезда, а поезда похожие на дома. И что из этого считать домом, а что поездом?
При всём уважении, это больше похоже на демагогию, а не на аргумент.)
Вот посмотрите на этот кадр youtu.be/VOC3huqHrss?t=48
Ни один человек в своём уме не назовёт выделенный объект поездом. Любому человеку понятно, что это цепочка домов. Конечно, на какой-то очень-очень грубой степени приближения это действительно похоже на поезд, но мы ведь говорим про точность распознавания лучше чем у человека, не так ли? А приведённые примеры полностью опровергают этот тезис. Соответственно мой вопрос: есть ли системы не совершающие настолько очевидных ошибок.

Roman_Kh Jan 7 2018 at 18:16

это больше похоже на демагогию, а не на аргумент

Демагогией как раз является ваша декларация, не имеющая никакого отношения к содержанию моего аргумента, а выражает ваше отношение к нему (которое не является предметом дискуссии).
В то время как мой аргумент является именно аргументом… так пока и оставшимся без ответа.

Ни один человек в своём уме не назовёт выделенный объект поездом.

Это утверждение необходимо доказать.
На самом же деле даже после разметки тысячи кадров человек будет ошибаться раз в 100 больше, чем нейросеть.

Не говоря уже о том, что нейросеть справляется с этой работой в тысячи раз быстрее. Это и есть super-human уровень — ни один человек не может дать такой же точности с такой скоростью.

dtyurev Jan 6 2018 at 15:57

Интересно, насколько системы распознавания близки к тому, чтобы стать более… интеллектуальными? Чтобы качество распознавания соответствовало человеку внимательно рассмотревшему картинку, а не бегло глянувшему на неё.)

Nashev Jan 6 2018 at 20:20

Жаль, что это итоги 2016

aslepov78 Jan 7 2018 at 09:39

Очень жаль, что открывая статью на тему ML или CV я в 90% случаев вижу очередной тролинг про нейросети.

Belarus Jan 9 2018 at 13:42

Милая собачка, не так ли?