эээ, а не может быть просто, что выбросы происходят на более редких именах и все? Тупо статистически, у имен с меньшим количеством людей разброс средних больше, поэтому и в вверху, и внизу — более редкие имена, а популярные — в середине.
Тоже важна, вопросов нет, но все же предполагаемая скорость Inference тоже имеет значение. Т.е. если понятно, что inference будет очень тормозной часто и экспериментировать в эту сторону не хочется. Впрочем, верю, что могут быть юзкейсы, где не так.
Про первое — по мне, главная практическая проблема, что часто bottleneck — это скорость inference, а не тренировки, особенно финальной. А тут inference все еще в N раз медленней.
А они сравнивали качество ансамбля, которые получается их техникой, с тем, который достигается полной тренировкой несколько раз? Ну и да, если плохо тренировать бейзлайн, много пейперов написать можно…
Про второе — AFAIR, часто первые слои жрут намного больше вычислений, поэтому если первую половину выкинуть, то должно быть ускорение сильно больше, чем в два раза.
Тем не менее, из разряда идей «хозяйке на заметку» — обе статьи интересные.
Спасибо за статью! Очень круто, что получается такой сложный пайплайн end-to-end тренировать. И опять же интересен подход — используем для создания ground truth существующие, но очень дорогие методы, а потом тренируем модель, которая может работать везде.
Можно каких-то ссылок добавить на реализацию-оригинал статьи-итд?
Ага, у модели мощный prior на то, какого размера могут быть объекты, потому что она поди видела только определенного размера объекты во время тренировки. Если такое очень важно — можно такие примеры специально в training set подмешивать.
Черти сколько ищу простое человеческое «jump to symbol» по нескольким первым буквам, как во всех современных IDE. Черт с ним, даже букмарки с текстовым поиском бы устроили.
Нет никакой надежды?
Прикольно, спасибо за пост! Можно попробовать сжимать сеть через deep compression https://arxiv.org/abs/1510.00149. А ещё можно генерироваться очень много негативных примеров, и проддерживать нужную пропорцию per-batch
Сверх-глубокие сети на 1000+ слоев пока не получается тренировать на картинках разрешения тех, что в ImageNet (тупо не тянет железо), поэтому сравнивать их с описанными решениями тяжело. Их тренируют на CIFAR-10 и CIFAR-100, где картинки 32x32.
Про трансформации — непосредственно в архитектурах зашита только устойчивость к сдвигу (из-за того как работают convolution layers), устойчивости к остальным трансформациями люди добиваются так называемым augmentation — т.е. создают новые тренировочные картинки из старых и учат сеть на них тоже. Чем меньше данных для обучения, тем более важным становится augmentation.
Про первое — по мне, главная практическая проблема, что часто bottleneck — это скорость inference, а не тренировки, особенно финальной. А тут inference все еще в N раз медленней.
А они сравнивали качество ансамбля, которые получается их техникой, с тем, который достигается полной тренировкой несколько раз? Ну и да, если плохо тренировать бейзлайн, много пейперов написать можно…
Про второе — AFAIR, часто первые слои жрут намного больше вычислений, поэтому если первую половину выкинуть, то должно быть ускорение сильно больше, чем в два раза.
Тем не менее, из разряда идей «хозяйке на заметку» — обе статьи интересные.
Можно каких-то ссылок добавить на реализацию-оригинал статьи-итд?
Я как активно состоящий и там, и там, считаю, что тусовки сложились разные и формат обсуждений тоже.
Надо кросс-опылять хорошим контентом!
Я бы хотел добавить, что дополнительная мотивация увеличивать веса в направлении маленького градиента — это чтобы лучше вылезать из седловых точек, в которых практически всегда застревает отпимизация (настоящий локальный минимум встретить в таком многомерном пространстве — очень маловероятно)
Вот наш кумир Andrej Karpathy в CS231 поясняет - http://cs231n.github.io/neural-networks-3/#ada
Нет никакой надежды?
Про трансформации — непосредственно в архитектурах зашита только устойчивость к сдвигу (из-за того как работают convolution layers), устойчивости к остальным трансформациями люди добиваются так называемым augmentation — т.е. создают новые тренировочные картинки из старых и учат сеть на них тоже. Чем меньше данных для обучения, тем более важным становится augmentation.