Comments 22
«Это качественное и важное исследование напоминает нам, что „глубокое обучение" на самом не может похвастаться той глубиной, которая ему приписывается»
Вообще-то глубокое обучение — это от «глубоких» (т.е. многослойных) НС. Ни о какой другой глубине речи и не идет.
Ну и картинка с шестью слоями очень интересна. Давно мы разобрались что там происходит в каком слое? А что если еще слой добавить? Ну и определение в духе «перевод пикселей на язык чисел» как-то неуместно вообще.
Какая польза от этого исследования? Что сети ошибаются? Да, и сейчас уже меньше, чем люди во многих, но не во всех задачах. Или в том, что в поиске слона в определенной комнате сеть хуже человека (а это вопрос, так как еще раз, я слона вот не нашел). А может, еще вспомним, что сеть обучается на маленьких изображениях? Посмотрим, как человек найдет на этой шедевральной картинке слона и остальные объекты, когда вся картинка будет размером 300х300.
Про пропавшую чашку отдельный смех, судя по картинке — выставлен порог в 50% уверенности, на картинке просто нет кандидатов с меньше уверенностью (а на выходе сети есть), то есть если чашка детектировалась с 50% вероятностью, а после слона с 49% — то на картинке ее не будет, а разницы почти никакой.
Вот именно поэтому статья и бредовая.
Вернее я «нашел», но совсем не того — даже зная, что где-то он должен быть я решил что речь о игрушке валяющейся на диване у правого края фото (в основном задние ноги видны).
Отмел, что слон какой-то весьма странный(а слон ли это вообще?) и долго думал — что значит «появился слон» если это нечто присутствует на обоих картинках. Ну а «правильного» слона мозг «отфильтровал» как тени/артефакты от занавески на заднем фоне. И только поиграв в «найди 10 отличии» (т.е. сравнивая сразу ОБЕ картинки) нашел-таки его.
А на чем именно сидит мужик я и до сих пор понять не могу даже посмотрев внимательно несколько раз: толи кресло с вытянутым лежаком с наклонной спинкой(как у пляжных например), толи небольшой диван.
Т.е. точно так же как нейросеть — у нее там сомнения между «chair» (что обозначает не только стул, но и кресло) и «couch» (диванчик, кушетка).
С «исчезнувшей» книжкой та же история как и пропавшей бутылкой — оба объекта были изначально опознаны с вероятностью всего 50% и похоже это действительно выбранная граница для вывода и снижение оценки даже на долю % приводит к тому, что подобные объекты перестают подсвечиваться (но остаются в полном выводе).
Кстати, при рассматривании картинки со слоном, именно слон стянет на себя внимание, и прочие детали будут осмыслены хуже, чем без слона.
Перевод на картинке совершенно неправильный и оттого непонятный.
В оригинале текст подписей более близок к тому, как действительно работают такие (обычно свёрточные) сети.
А именно:
1) Значения пикселов.
2) Выявленные рёбра/грани/кромки.
3) Выявленные комбинации кромок.
4) Выявленные признаки/детали/features ("feature" в данном случае труднопереводимо для меня, обычно не переводят).
5) Выявленные комбинации признаков/деталей.
6) Выход: "Собака".
Нет никакого 2) "определения границ объектов". Это — отдельная задача, решаемая несколько другими нейронными сетями. Во втором слое выявляются небольшие фрагменты объектов (линии под разными углами, чуть более сложные примитивы).
Также нет никакого 3) 5) "Анализа различных сочетаний", а есть "выявленные комбинации/сочетания" (хотя тут со мной можно поспорить, если используются pooling слои, это можно назвать анализом; но в оригинальной картинке текст другой).
Машинное обучение: схватка с комнатным слоном