Vasyutka Dec 3 2017 at 23:15

Капсульные сети от Хинтона

6 min

22K

Recognitor corporate blogMachine learning * Image processing *

+30

Comments 20

Hardcoin Dec 4 2017 at 00:08

Идея очень интересная. Хотя mnist, на мой взгляд, не показатель. Слишком высокая точность, лучше на ImageNet проверять.

И не очень пока ясно, как это с reinforcement learning состыкуется.

Vasyutka Dec 4 2017 at 09:50

Чтобы достичь большего в ImageNet нужны дополнительные внешние данные для обучения. Ну например, как одни и те же объекты выглядят с разных сторон. Как эти же объекты могут изменяться (поза, цвет и т.п.). И тогда все получится.

Reinforcement learning — это подход к обучению, так что кажется нет ограничений использовать его и тут.

Другая тут история есть: все-таки учатся капсульные сети порядка на 2 затратней, это накладывает небольшие ограничения на отладку и тестирование на всех подряд задачах. Да и нужно время, чтобы отбросить лишнее, оптимизировать все элементы, из которых состоит архитектура

Randl Dec 4 2017 at 10:13

Все таки сомневаюсь, что проблема только с ресурсами, благо у самого Хинтона их достаточно.

Самое сложное — это заинтересовать людей чем-то, что (пока что) не SOTA. Над CNN работают уже N лет куча людей, и рассчитывать что одна группа проработает их альтернативу до такого же уровня довольно оптимистично.

Vasyutka Dec 4 2017 at 10:19

ну я бы поспорил. Сверточные сети ведь как залезли на коня: в какой-то год неожиданно потоптали всех на ImageNet. LeNet лежала готовая и почти без изменений с конца 90х годов. А до этого все сообщество (и мы тоже), пользовались HaarDetector, разными boost-ами пространственных фич, HOG. И рассчитывать, что сверточные сети проработает несколько небольших групп до уровня остальных алгоритмов довольно было оптимистично :). Ну это замкнутая задача в общем: не победить устоявшийся зоопарк алгоритмов без сообщества, не будет сообщества, не победишь весь этот зоопарк. Если идея стоящая — найдутся применения, где решение будет на голову лучше. А сообщество подключится — это нормально

Randl Dec 4 2017 at 11:44

Но свертки никакой проработки не требовали, как только появилось достаточно ресурсов, они сразу всех заткнули за пояс.

Vasyutka Dec 4 2017 at 12:16

Требовали:
1) ReLu вместо sigmoid
2) свертку пошире 5х5 заменили на две 3х3 -> 3x3
3) лоссы softmax crossentropy, не сразу стали, если я не путаю
4) регрессии для ряда случаев в качестве выхода
5) потом куча разных архитектур для разных задач — там просто гигантский объем работ (тут просто все не перечислить)
6) инженерно — автодифференцирование для кастомных лоссов
7) ResNet
8) автоекнодеры — этого не было изначально
9) инструменты в конце концов! это серьезные программные пакеты, требующие много времени
ну и т.д. и т.п. Огромный объем задач

Randl Dec 4 2017 at 14:41

В том то и дело, что большая часть списка появилась после AlexNet

Hardcoin Dec 4 2017 at 17:05

в ImageNet нужны дополнительные внешние данные для обучения

Если это довод продолжать тестировать на mnist, то он странный и мне не понятен.

Мне было интересно, даст ли капсульная архитектура прирост в сравнении с RNN на задачах типа ImageNet, а не на какой-то новой задаче с дополнительными данными.

Vasyutka Dec 5 2017 at 00:01

Конечно, не повод.

Я хотел сказать, что данные нужны такие, которые позволят максимально использовать задумку. на ImageNet, как и на MNIST клином не сошлось

И на самом деле капсульная архитектура может дать проигрыш во многих задачах. Не в этом дело, а в том, что она заставляет задуматься о том, как соотносится организация неокортекса и тех алгоритмов/архитектур, что мы сейчас используем.

valeriyk Dec 4 2017 at 00:27

Ничего не понял. Подожду, пока товарищ Ng запишет видеолекцию для тупых.

sim0nsays Dec 4 2017 at 02:30

От Ng ждать придется довольно долго, поэтому я вот тут попытался —

Vasyutka Dec 4 2017 at 09:57

Да, спасибо! Критика корректна, MNIST не хочется публиковать, тем более что результат даже сильно не 99.8 (но вот придется, чтобы зафиксировать, что «другая архитектура вообще работает»). В основном из-за того, что для чистоты эксперимента отказался от сверточных слоев. А тут у Хинтона как-раз и смущает выигрыш в каких-то 4 примера (или даже проигрыш) при том количестве сверточных слоев, которые по сути то играют роль ансамбля сетей в primaryCaps

apitest Dec 4 2017 at 09:43

Последний год наши изыскания тоже не стояли на месте.

Еще интересует приходилось ли иметь дело с PCNN сетями?

rakhlin Dec 4 2017 at 10:03

Обратное распространение градиентов придумал не Хинтон, а финский студент Seppo Linnainmaa. См. people.idsia.ch/~juergen/who-invented-backpropagation.html Имя Хинтона здесь даже не упоминается. Трудно сказать, что он вообще придумал. Одно время мне казалось, что Dropout и ReLU, но и это, как выясняется, не его.

Randl Dec 4 2017 at 10:10

Статья манипулятивная, так как Linnainmaa придумал метод автоматической дифференциации. Все равно что сказать что человек придумавший умножение, придумал заодно и все методы использующие умножение.

rakhlin Dec 4 2017 at 10:37

Что-то в этом утверждении есть, но в любом случае не Хинтон.

Vasyutka Dec 4 2017 at 10:35

Вообще «кто первый изобрел» — это тема бесконечных манипуляций. Очень уж много оговорок всегда. Любое «великое изобретение» очевидно уже незадолго до появления для каждого 10го, кто занимается этой темой. А после появления — вообще каждый чувствует, что этож было очевидно. И потом всплывет еще десяток работ, уже ранее опубликованных, где «вот про тоже самое». И это нормально

SpiridonovAA Dec 4 2017 at 13:23

«Кроме того, большой «слон», которого мы, инженеры, стараемся не замечать в своей комнате — миниколонки в коре мозга, которые явно должны иметь понятную, ограниченную и не слишком примитивную функцию»
Вроде, Вадим Филиппов занимается разработкой нейросетей на основе кортикальных колонок

Vasyutka Dec 4 2017 at 13:23

Спасибо! Вот жеж и говорю, всем бы пора этим заниматься.

i-aztec Dec 8 2017 at 10:55

Мне кажется, что проблема в таком подходе может быть ещё в том, что описания всех классов в слое DigitCaps сворачиваются до векторов одинаковой небольшой длины. Реально же одни классы могут быть сильно вариативны (и требовать больший вектор для своего описания -например, можем видеть объекты данного класса с разных сторон и в виде кучи деформаций), а другие — не сильно.