Pull to refresh
253
0
Семен Козлов @sim0nsays

Пользователь

Send message
эээ, а не может быть просто, что выбросы происходят на более редких именах и все? Тупо статистически, у имен с меньшим количеством людей разброс средних больше, поэтому и в вверху, и внизу — более редкие имена, а популярные — в середине.
Тоже важна, вопросов нет, но все же предполагаемая скорость Inference тоже имеет значение. Т.е. если понятно, что inference будет очень тормозной часто и экспериментировать в эту сторону не хочется. Впрочем, верю, что могут быть юзкейсы, где не так.
Спасибо за разбор, очень понятно и по делу!

Про первое — по мне, главная практическая проблема, что часто bottleneck — это скорость inference, а не тренировки, особенно финальной. А тут inference все еще в N раз медленней.
А они сравнивали качество ансамбля, которые получается их техникой, с тем, который достигается полной тренировкой несколько раз? Ну и да, если плохо тренировать бейзлайн, много пейперов написать можно…

Про второе — AFAIR, часто первые слои жрут намного больше вычислений, поэтому если первую половину выкинуть, то должно быть ускорение сильно больше, чем в два раза.

Тем не менее, из разряда идей «хозяйке на заметку» — обе статьи интересные.
Спасибо за статью! Очень круто, что получается такой сложный пайплайн end-to-end тренировать. И опять же интересен подход — используем для создания ground truth существующие, но очень дорогие методы, а потом тренируем модель, которая может работать везде.

Можно каких-то ссылок добавить на реализацию-оригинал статьи-итд?
Надо ребра передавать, мне кажется. Прогони через какой-нибудь Canny edge detector?
Ага, у модели мощный prior на то, какого размера могут быть объекты, потому что она поди видела только определенного размера объекты во время тренировки. Если такое очень важно — можно такие примеры специально в training set подмешивать.
Статья, от английского paper. Полураспад мозга :(
Пацаны, не ссоримся, все профессии важны, все профессии нужны.

Я как активно состоящий и там, и там, считаю, что тусовки сложились разные и формат обсуждений тоже.
Надо кросс-опылять хорошим контентом!
Отличный пост!
Я бы хотел добавить, что дополнительная мотивация увеличивать веса в направлении маленького градиента — это чтобы лучше вылезать из седловых точек, в которых практически всегда застревает отпимизация (настоящий локальный минимум встретить в таком многомерном пространстве — очень маловероятно)
Вот наш кумир Andrej Karpathy в CS231 поясняет - http://cs231n.github.io/neural-networks-3/#ada
Черти сколько ищу простое человеческое «jump to symbol» по нескольким первым буквам, как во всех современных IDE. Черт с ним, даже букмарки с текстовым поиском бы устроили.
Нет никакой надежды?
Спасибо за пояснение!
В изначальной статье про ResNets это обсуждается в Appendix: https://arxiv.org/abs/1512.03385
Топовый результат в object detection на ImageNet как раз продемонстрирован ResNet, воткнутым в Faster-RCNN
Мне кажется, даже минимальные исследованые конфигурации лучше, AlexNet уже довольно старая архитектура
А можете пояснить, как у них получилось, что окошко размера 555x555? Вроде бы у оригинального GoogLeNet вход 224x224
Огромное спасибо за рассказ, особенно за разбор других опубликованных решений! Больше нейросетей!
Прикольно, спасибо за пост! Можно попробовать сжимать сеть через deep compression https://arxiv.org/abs/1510.00149. А ещё можно генерироваться очень много негативных примеров, и проддерживать нужную пропорцию per-batch
Сверх-глубокие сети на 1000+ слоев пока не получается тренировать на картинках разрешения тех, что в ImageNet (тупо не тянет железо), поэтому сравнивать их с описанными решениями тяжело. Их тренируют на CIFAR-10 и CIFAR-100, где картинки 32x32.

Про трансформации — непосредственно в архитектурах зашита только устойчивость к сдвигу (из-за того как работают convolution layers), устойчивости к остальным трансформациями люди добиваются так называемым augmentation — т.е. создают новые тренировочные картинки из старых и учат сеть на них тоже. Чем меньше данных для обучения, тем более важным становится augmentation.

Information

Rating
Does not participate
Location
San Francisco, California, США
Works in
Date of birth
Registered
Activity