sim0nsays May 31 2016 at 06:03

Эволюция нейросетей для распознавания изображений в Google: Inception-v3

4 min

41K

Machine learning*Image processing*

+21

Comments 10

sergehog May 31 2016 at 09:02

Видно что научная область еще не зрелая. Танцы с бубнами и перетасовки разных приемчиков. Большая картина еще не сложилась. Лет через 5 будем иметь стандартную архитектуру сети в которой все учтено а еще через 5 поймем что все делали не правильно и надо по другому. Но тогда уже интерес к нейро-сетям угаснет :)

sim0nsays May 31 2016 at 16:30

Хорошо бы через 5… За последние 4 прогресс в понимании большой картины так себе.

MadRogue Dec 24 2021 at 13:23

Сильно ли все поменялось за эти 5 лет?

BelBES May 31 2016 at 11:39

И вот вся эта машинерия жрет в 2.5 раз больше вычислительных ресурсов, чем Inception-v1 и достигает значительно лучших результатов.

так получается, что GoogLeNet в любом случае при сравнимом качестве с ResNet (0.01% — это не принципиальный проигрыш) работает существенно быстрее, т.к. сложность для ResNet-152 ~12 GFLOP, а для GoogLeNet ~3GFLOP (если считать 2x от Inception v1).

sim0nsays May 31 2016 at 16:30

Там 2.5x, но да, все так.

BelBES May 31 2016 at 17:56

Интересно, насколько можно повысить качество этого гугленета, если прокинуть residual-связи вокруг inception'ов… по идее должно хватить для того, чтобы стать top-1

sim0nsays May 31 2016 at 18:12

Ждите следующей части, все будет!

Dark_Daiver May 31 2016 at 18:53

Я безумно извиняюсь за некоторый оффтоп, но не могу не задать вопрос
Есть ли какое-нить доступное объяснение, почему «классические» (не residual) глубокие сети с ростом числа уровней начали давать худший training error?

BelBES May 31 2016 at 19:10

Ну, во первых, при тренировке достаточно глубоких сетей возникает пробелма с исчезающими градиентами. Но эту проблему вроде бы достаточно эффективно побеждают за счет использования Batch Normalization. И в статье про ResNet авторы предположили иную природу такого поведения, а именно то, что при увеличении глубины сети, экспоненциально убывает скорость сходимости, соответственно тупо не получается дождаться сходимости процесса обучения. А residual connections позволяют усиливать активацию на каждом слое, тем самым более эффективно тренирую глубокие слои. Но, даже для таких сетей авторы уткнулись в то, что с некоторого момента возникает проблема с тем, что в датасетах недостаточно данных, чтобы обобщиться с еще большим качеством (насколько я помню, даже для 1000-слойного резнета они уже пришли к выводу, что он мог бы и лучше результаты показать, но данных не достаточно).

Dark_Daiver Jun 1 2016 at 11:13

Ага, понял, спасибо)
Про 1200-слойную сеть я помню, в статье вроде писали что у них наступило переобучение