Да, так и делается. Но много отсечь получится не всегда. Допустим, для «пола», где зачастую только M/F бывает, отсечения отлично работают. Но практически не работают для адресов. Там всегда может быть любая буква алфавита, а еще цифры и пунктуация. Возвращаясь к нашему примеру с Ё: в уже упомянутом албанском — это одна из самых частых букв. Другой часто встречаемый случай — распознавание буквы I, если на картинках почему-то образовалась вертикальная черта.
Как правило, нет. Во-первых, никогда неизвестно как именно пользователь сфотографирует карточку, и в каких условиях ему придется это делать. Во-вторых, не на всех картах рельефный шрифт.
Вообще, цель картинки — показать, что иногда на фонах возникают «призраки» символов. Там может возникнуть что угодно для какого угодно алфавита. Но да, правда, что иногда такое можно попробовать убрать проверкой алфавита. Только это могла быть не русская Ё) А, например, албанская, фактически латинская E c умлаутом.
Геометрия пучка рентгеновских лучей (т.е. какая схема параллельная или cone beam была использована) не влияет на работу предложенного метода. Причина возникновения артефакта рассматриваемого типа лежит в другой плоскости, а если точнее, то она связана с полихроматичностью зонда.
По оси у отложены значения яркости восстановленного изображения в относительных единицах. При использовании монохроматического излучения распределение яркости соответствовало бы распределению коэффициента поглощения рентгеновского излучения на длине волны зонда. При использовании полихроматического зондирующего излучения распределение яркости реконструированного изображения соответствует уже распределению некоторого “усредненного” коэффициента, причем его связь с коэффициентами поглощения для каждой из линий спектра не очевидна. В медицине переходят к шкале Хаунсфилда, используя дополнительные измерения водяного фантома на конкретной томографической установке в конкретном режиме съемки.
Да, конечно, мы знаем про существование detector map, но проблема в данном случае комплексная. Объект целиком не умещался в поле вида детектора. Для получения изображения целого объекта (для каждого проекционного угла) участки нескольких изображений, на каждом из которых была представлена только часть объекта, были сшиты. Сшивка изображений — отдельная задача. Какие-то возникающие проблемы можно увидеть и устранить, а какие-то нет. В частности, вертикальные полосы на рис.2 демонстрируют наличие трудностей при сшивке. Т.е. появление колец на восстановленном изображении имеет не один источник происхождения. Будет время, поговорим и об этом типе артефактов.
1. Задача геометрического совмещения превращается в серьезную проблему при уровне шума в несколько процентов, а в медицинских приложениях он достигает десятков процентов из-за ограничений на радиационную нагрузку, т.е. нам не удастся считать задачу несущественной.
2. Ну а о том, какие трудности ждут на пути поиска места для печати физических фантомов с требуемой точностью вы, кажется, и сами догадались.
В связи с этим предлагаемый способ выглядит, как минимум, заслуживающим внимания.
Ну, давайте дальше разбираться. Пойдем с конца.
1) Сбор больших данных. Во-первых, сбор паспортов граждан у нас в стране, да и во всем мире — деятельность, строго регулируемая законодательством, поэтому просто так взять и собрать картинки для обучения, а потом еще и отдать их разметку — незаконно. Во-вторых, у любой такой системы гигантский шанс кражи личных данных. Вот нам лично не хочется, чтобы фотографии наших паспортов и банковских карт оказались в открытом доступе.
2) Покрытие, конечно, улучшается. Но, во-первых, вы упорно игнорируете тот факт, что данные передавать надо не всегда. И работа вполне может происходить не на смартфоне, а на устройстве с похожими характеристиками. В предыдущем комментарии мы упоминали кассы для продажи билетов, в которые надо вбить данные, и они его напечатают. Также вполне возможно, что организация, использующая распознавание, не хочет заводить себе облако и вообще не хочет ничего ставить. Ей нужно просто фактически сканер, который наводишь на документ, а на компьютере уже текст. Это как с распознавание штрихкодов — вы же не ожидаете, что кассы в продуктовом подключены к облаку. Во-вторых, в Подмосковье, например, легко найти поселки и снт, где проводного интернета нет, а мобильный работает так себе, то есть, текст вы отправлять можете, а вот картинки — уже не факт.
3) Из соображений бизнеса лучше не попадать под законы о защите персональных данных. Это точно. Ну и не забывайте, что все незаконно собранные данные надо еще руками посмотреть и разметить. И тоже записать это в затраты. И не стоит забывать про переносимость технологий. Как сказано в статье, в такую сеть можно добавить пины, просто посчитав векторы для идеалов. В обычной сети так не получится. И сделать сверточную сеть, а уже тем более MLP с 20к выходных пинов — тоже.
Спасибо за комментарий. Давайте разберемся подробнее с каждым из указанных пунктов =)
1) К сожалению, в реальной жизни любые методы бинаризации приводят к искажению, а в худшем случае — к нечитаемости, входных данных. Данные, приходящие на мобильные системы, очень разнородны в плане искажений — проективные преобразования, смазывания, блики от ламинирующей пленки и защитных элементов паспорта, перепады освещения и затертости текста — в итоге, смешной выигрыш во времени при обучении приводит к ужасным потерям качества в реальной жизни.
2) Вообще, они используются, а также смазывания и шум. Просто в пост добавили четкие и слабо искаженные данные.
3) Короткий ответ: это не так.
Длинный ответ: классифицирующие сети всегда страдают от «излишней уверенности». Это значит, что на довольно хорошей картинке у вас лучший конфиденс сети будет около 1.0, а остальные — фактически по нулям. Например, для уверенно распознанной буквы «и» по нулям получат и «й», и «з», хотя мы (и метрическая сеть) прекрасно понимаем, что «й» похожа на «и», а вот «з» уже не очень. Реально близкие конфиденсы можно иногда увидеть либо если картинка очень плохая (практически нечитаемая), либо если у символов иногда совпадает написание (например, I (ай) и l (эль) в латинице).
4) Безусловно, можно передавать данные на облако для распознавания, а тысячи людей по всему миру оптимизируют сети просто ради самого процесса. Вот представьте, вам надо срочно вернуться домой из отпуска. И в приложении для покупки билетов есть распознавание паспорта. Интернет у вас вряд ли хороший, но как повезет. И вот для заполнения данных вы передаете на сервер множество картинок, ведь распознается видеопоток, а не одна фотография. Связь прерывается, вы теряете драгоценное время, а потом, в лучшем случае, вбиваете данные руками, а в худшем — остаетесь без билета. Ну и правильно, пользоваться распознаванием должны только люди с отличным интернетом, готовые к утечке персональных данных.
P.S. Ну и, конечно, данные всегда нужно передавать, даже если речь об автоматической кассе для продажи именных билетов.
Технологии, которые применяются для удаленной идентификации должны обеспечивать безопасную обработку персональных данных клиентов в соответствии с требованиями законодательства и здравого смысла. Так, алгоритмы распознавания документов и сверки лиц могут работать автономно на мобильных телефонах, не передавая персональные данные на обработку во внешние сервисы и третьим лицам.
Универсального подхода для защиты от мошенничества нет, но сейчас компаниям для удаленной идентификации доступны блоки автоматических проверок, реализованные на уровне технологий распознавания и верификации лиц, которые позволяют в некоторых случаях снизить, а в некоторых исключить риск мошенничества.
Попробуем ответить по порядку. Для начала мы не понимаем, которого Савельева и почему именно на нас нет. Если Сергея Вячеславовича, то с ним мы с большим удовольствием можем обсудить морфологию эпифиза и многие другие интересные темы. А если бы нам вдруг понадобилась консультация по биполярам сетчатки, мы бы обратились к Елене Михайловне Максимовой, благо ходить недалеко.
Название «биполярный» связано с тем, что наши нейроны ходят парами, кодируя положительный и отрицательный отклик раздельно, подобно on- и off- биполярам в сетчатке. Более точных метафор парного кодирования зрительных сигналов из биологии мы, к сожалению, не знаем. А вычитание на выбор названия никак не влияло, мы тут полностью на вашей стороне.
Теперь про ваш вариант названия. Он, к сожалению, не очень хорош, поскольку моделей с малым числом умножений уже известно некоторое количество, да и мы останавливаться не собираемся. А вот парность нейронов и раздельное кодирование в нашей модели появилось впервые, именно это – ее отличительное свойство.
Кроме того, «морфологический» — это уже «с малым числом умножений». Тавтология получается. Любая модель с максимумом и плюсом, но без умножения – морфологическая в обработке изображений (см., напр., wiki.technicalvision.ru/index.php/%D0%9C%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BE%D0%BF%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%B8_%D0%BD%D0%B0_%D0%BF%D0%BE%D0%BB%D1%83%D1%82%D0%BE%D0%BD%D0%BE%D0%B2%D1%8B%D1%85_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F%D1%85) и тропическая в алгебре. Наша сеть – «биполярная морфологическая» или «биполярная тропическая», на выбор. Но если обезопаситься от биологов, то климатологи и географы с астрономами уж точно пристукнут.
Мы – математики. «Дорогая, ты у меня компактная, в смысле – замкнутая и ограниченная». А «искусственные нейронные сети» давно уже не являются имитационными моделями биологических нейронов ни в каком смысле. Сеть в целом еще является феноменологической моделью биологической нейросети, да и то только в смысле «как вообще можно решать сложные задачи неалгоритмически». В частности, обучение ИНС не имеет целью моделирование какой-либо реального биологического процесса.
Очень зависит от архитектуры вычислителя. Наиболее жестко вопрос ускорения стоит на центральных процессорах (особенно ARM и MIPS) и ПЛИСах. На ЦП используются арифметико-логические устроства общего назначениия, на них чаще всего сложение и умножение в вещественных числах занимают близкое или даже одинаковое время, различие есть только для целочисленных данных. А вот на ПЛИС разница между сложением и умножением уже заметна, для целочисленных типов она, например, ~n, где n — разрядность типа данных. Сейчас ниша применения нейросетевого распознавания на ПЛИС достаточно узкая и специфичная. Однако уже проектируются и создаются нейроморфные чипы для исполнения нейронных сетей, на которых есть возможность сделать специализированные устройства для сложения, умножения, максимума, и ускорение там должно быть заметным. Поэтому в большей степени эта работа — задел на будущее, поскольку, с учетом распространения технологий распознавания, приход таких чипов в обиход — лишь вопрос времени.
Эта работа в том же направлении, которая показывает, что вопрос что-то поменять в классической модели нейрона все же назрел. Результаты по падению качества там сходны с нашими. Однако:
— в этой работе также заменяются только операции внутри свертки, а затем добавляется BatchNorm, в котором есть умножения;
— для обучения предложен backprop с модифицированным градиентом, с не до конца исследованными свойствами и который требует специальной настройки системы обучения, в то время как мы ориентируемся в первую очередь на конвертацию и использование стандартных подходов и инструментария.
Похоже мы находимся на пороге нового большого направления исследований нейросетевых моделей.
На этом пути есть несколько существенных препятствий. Во-первых, сам по себе физический эталон, напечатанный на 3D-принтере, не может быть использован в качестве ground truth, поскольку он существует в своей системе координат, а реконструкция – в своей. Нам придется решать задачу трехмерного совмещения исходной 3D-модели тестовой детали и нашей зашумленной реконструкции. К тому же, реконструкция имеет и геометрические искажения (о чем мы для простоты не стали писать), а деталь испытывает тепловые и прочие деформации. Так что нам требуется вовсе не тривиальный алгоритм. А как мы будем проверять его корректность? Во-вторых, принтер в любом случае напечатает не совсем то, что мы планировали. А иногда – совсем не то. Каким же методом нам проверить соответствие реальной детали и исходной модели? Барон Мюнхгаузен предложил бы компьютерную томографию. Мы верим, что есть более реалистичные способы, но они повышают издержки. Далее в игру вступают размеры. Пространственное разрешение 3D принтеров в горизонтальном направлении составляет десятки микрон (цитируем: «10-50 мкм, в зависимости от геометрии деталей»), а по высоте и того хуже. Нефтяников же интересуют поры с размерами порядка долей микронов. И, наконец, последняя проблема: каким материалом мы будем печатать эталон керна? Артефакты реконструкции зависят от материала, поэтому испытания алгоритма бинаризации на пластмассовом эталоне ничего не скажут о его качестве в «боевых условиях». Кажется, современные технологии еще недостаточно развиты для предлагаемого вами способа получения ground truth…
Спасибо AntonioXXX за комментарий. Действительно, в данной публикации мы уделяем внимание именно проблеме поиска штрихкода на изображении, определении его границ. Именно это мы вкладываем в термин «локализация»
Для экспериментов мы использовали библиотеку OpenCV 4.1.1
Внутри OpenCV есть алгоритм локализации QR-кодов. Но он хорошо работает только в случае, когда сам штрихкод занимает большую часть распознаваемого изображения. Предложенный в данной публикации подход используется в качестве предобработки полноразмерного изображения перед декодирование штрихкода с помощью OpenCV.
1) Наши эксперименты и предполагали проверку того, что метод улучшает среднее качество сетей — мы брали среднее качество по 10 экспериментам, а не лучшее достигнутое.
2) Насчет названных вами архитектур — мы ни в каком виде не ориентируемся на сети с таким большим количеством параметров. Минимальное число коэффициентов среди названных вами архитектур примерно в 50-100 раз больше, чем в распознающих текст сетях у нас. И ведь это только число коэффициентов, количество операций же будет значительно больше (т.к. сети сверточные). Если мы будем использовать подобные модели при распознавании того же паспорта РФ, где происходит более 20 вызовов нейронных сетей на различных полях, то об использовании такой системы на мобильнике можно забыть (на условном iPhone 5s или того хуже, а не на самых современных флагманах с нейронными сопроцессорами).
3) Насчет облегчения тяжелых сетей, вместо того чтобы учить сразу легкую сеть — это крайне спорное утверждение. Если тяжелая сеть обучилась так, что после этого из нее можно выкинуть 90% связей — то мы предпочтем сделать это еще на этапе подготовки архитектуры. Здесь же мы предпочтем и убрать лишние слои, сократив их до минимума. К сожалению, главная проблема, в которой мы много раз убеждались на практике — чтобы получить быстро работающую сеть, ориентироваться только на число параметров/операций недостаточно. При прогоне обученной сети существует множество различных оптимизаций как быстро вычислять выход сети, в ходе которых та же сепарабельность фильтров и т.п. подходы могут полностью перекрываться оверхедами, связанными, например, с дополнительными копированиями.
1) Пробовали на синтетически сгенерированных строках текста (цифры) с сильно отличающимися фонами и аугментацией. В среднем небольшой, но прирост есть.
2) Наши эксперименты показали, что эффект тем меньше, чем больше сверточных фильтров. Но тут есть одно но, а именно насколько ваши обучающие данные соответствуют тестовым. При малом числе фильтров сети ничего не остается, кроме как выцеплять наиболее значимые и глобальные для классов признаки. Имея же дополнительные фильтры в запасе, их можно настроить в линейно зависимом виде, но с прицелом на признаки, характерные не только для объектов, а для конкретного датасета в целом (без переобучения, учитывая искажения, особенности фона, и прочее). Так как наша регуляризация препятствует этому, качество может получиться даже хуже. Поэтому на практике все зависит от данных: если трейн слабо коррелирует с тестом, то мы предполагаем, что наша регуляризация только поможет. Если же трейн полно описывает закономерности в тестовых данных (что и было у нас в MNIST и CIFAR10), то обучение с большим количеством фильтров на особенностях датасета не является чем то плохим и потому пользы от нашей регуляризации будет меньше.
3) Мы не проводили подобных экспериментов, поэтому гарантировать какой-либо эффект тут затруднительно. Все зависит от того, на каких данных будете дообучать и насколько тяжела архитектура (аналогично ответу на 2ой вопрос).
По оси у отложены значения яркости восстановленного изображения в относительных единицах. При использовании монохроматического излучения распределение яркости соответствовало бы распределению коэффициента поглощения рентгеновского излучения на длине волны зонда. При использовании полихроматического зондирующего излучения распределение яркости реконструированного изображения соответствует уже распределению некоторого “усредненного” коэффициента, причем его связь с коэффициентами поглощения для каждой из линий спектра не очевидна. В медицине переходят к шкале Хаунсфилда, используя дополнительные измерения водяного фантома на конкретной томографической установке в конкретном режиме съемки.
Да, конечно, мы знаем про существование detector map, но проблема в данном случае комплексная. Объект целиком не умещался в поле вида детектора. Для получения изображения целого объекта (для каждого проекционного угла) участки нескольких изображений, на каждом из которых была представлена только часть объекта, были сшиты. Сшивка изображений — отдельная задача. Какие-то возникающие проблемы можно увидеть и устранить, а какие-то нет. В частности, вертикальные полосы на рис.2 демонстрируют наличие трудностей при сшивке. Т.е. появление колец на восстановленном изображении имеет не один источник происхождения. Будет время, поговорим и об этом типе артефактов.
2. Ну а о том, какие трудности ждут на пути поиска места для печати физических фантомов с требуемой точностью вы, кажется, и сами догадались.
В связи с этим предлагаемый способ выглядит, как минимум, заслуживающим внимания.
1) Сбор больших данных. Во-первых, сбор паспортов граждан у нас в стране, да и во всем мире — деятельность, строго регулируемая законодательством, поэтому просто так взять и собрать картинки для обучения, а потом еще и отдать их разметку — незаконно. Во-вторых, у любой такой системы гигантский шанс кражи личных данных. Вот нам лично не хочется, чтобы фотографии наших паспортов и банковских карт оказались в открытом доступе.
2) Покрытие, конечно, улучшается. Но, во-первых, вы упорно игнорируете тот факт, что данные передавать надо не всегда. И работа вполне может происходить не на смартфоне, а на устройстве с похожими характеристиками. В предыдущем комментарии мы упоминали кассы для продажи билетов, в которые надо вбить данные, и они его напечатают. Также вполне возможно, что организация, использующая распознавание, не хочет заводить себе облако и вообще не хочет ничего ставить. Ей нужно просто фактически сканер, который наводишь на документ, а на компьютере уже текст. Это как с распознавание штрихкодов — вы же не ожидаете, что кассы в продуктовом подключены к облаку. Во-вторых, в Подмосковье, например, легко найти поселки и снт, где проводного интернета нет, а мобильный работает так себе, то есть, текст вы отправлять можете, а вот картинки — уже не факт.
3) Из соображений бизнеса лучше не попадать под законы о защите персональных данных. Это точно. Ну и не забывайте, что все незаконно собранные данные надо еще руками посмотреть и разметить. И тоже записать это в затраты. И не стоит забывать про переносимость технологий. Как сказано в статье, в такую сеть можно добавить пины, просто посчитав векторы для идеалов. В обычной сети так не получится. И сделать сверточную сеть, а уже тем более MLP с 20к выходных пинов — тоже.
1) К сожалению, в реальной жизни любые методы бинаризации приводят к искажению, а в худшем случае — к нечитаемости, входных данных. Данные, приходящие на мобильные системы, очень разнородны в плане искажений — проективные преобразования, смазывания, блики от ламинирующей пленки и защитных элементов паспорта, перепады освещения и затертости текста — в итоге, смешной выигрыш во времени при обучении приводит к ужасным потерям качества в реальной жизни.
2) Вообще, они используются, а также смазывания и шум. Просто в пост добавили четкие и слабо искаженные данные.
3) Короткий ответ: это не так.
Длинный ответ: классифицирующие сети всегда страдают от «излишней уверенности». Это значит, что на довольно хорошей картинке у вас лучший конфиденс сети будет около 1.0, а остальные — фактически по нулям. Например, для уверенно распознанной буквы «и» по нулям получат и «й», и «з», хотя мы (и метрическая сеть) прекрасно понимаем, что «й» похожа на «и», а вот «з» уже не очень. Реально близкие конфиденсы можно иногда увидеть либо если картинка очень плохая (практически нечитаемая), либо если у символов иногда совпадает написание (например, I (ай) и l (эль) в латинице).
4) Безусловно, можно передавать данные на облако для распознавания, а тысячи людей по всему миру оптимизируют сети просто ради самого процесса. Вот представьте, вам надо срочно вернуться домой из отпуска. И в приложении для покупки билетов есть распознавание паспорта. Интернет у вас вряд ли хороший, но как повезет. И вот для заполнения данных вы передаете на сервер множество картинок, ведь распознается видеопоток, а не одна фотография. Связь прерывается, вы теряете драгоценное время, а потом, в лучшем случае, вбиваете данные руками, а в худшем — остаетесь без билета. Ну и правильно, пользоваться распознаванием должны только люди с отличным интернетом, готовые к утечке персональных данных.
P.S. Ну и, конечно, данные всегда нужно передавать, даже если речь об автоматической кассе для продажи именных билетов.
Универсального подхода для защиты от мошенничества нет, но сейчас компаниям для удаленной идентификации доступны блоки автоматических проверок, реализованные на уровне технологий распознавания и верификации лиц, которые позволяют в некоторых случаях снизить, а в некоторых исключить риск мошенничества.
Название «биполярный» связано с тем, что наши нейроны ходят парами, кодируя положительный и отрицательный отклик раздельно, подобно on- и off- биполярам в сетчатке. Более точных метафор парного кодирования зрительных сигналов из биологии мы, к сожалению, не знаем. А вычитание на выбор названия никак не влияло, мы тут полностью на вашей стороне.
Теперь про ваш вариант названия. Он, к сожалению, не очень хорош, поскольку моделей с малым числом умножений уже известно некоторое количество, да и мы останавливаться не собираемся. А вот парность нейронов и раздельное кодирование в нашей модели появилось впервые, именно это – ее отличительное свойство.
Кроме того, «морфологический» — это уже «с малым числом умножений». Тавтология получается. Любая модель с максимумом и плюсом, но без умножения – морфологическая в обработке изображений (см., напр., wiki.technicalvision.ru/index.php/%D0%9C%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BE%D0%BF%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%B8_%D0%BD%D0%B0_%D0%BF%D0%BE%D0%BB%D1%83%D1%82%D0%BE%D0%BD%D0%BE%D0%B2%D1%8B%D1%85_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F%D1%85) и тропическая в алгебре. Наша сеть – «биполярная морфологическая» или «биполярная тропическая», на выбор. Но если обезопаситься от биологов, то климатологи и географы с астрономами уж точно пристукнут.
Мы – математики. «Дорогая, ты у меня компактная, в смысле – замкнутая и ограниченная». А «искусственные нейронные сети» давно уже не являются имитационными моделями биологических нейронов ни в каком смысле. Сеть в целом еще является феноменологической моделью биологической нейросети, да и то только в смысле «как вообще можно решать сложные задачи неалгоритмически». В частности, обучение ИНС не имеет целью моделирование какой-либо реального биологического процесса.
— в этой работе также заменяются только операции внутри свертки, а затем добавляется BatchNorm, в котором есть умножения;
— для обучения предложен backprop с модифицированным градиентом, с не до конца исследованными свойствами и который требует специальной настройки системы обучения, в то время как мы ориентируемся в первую очередь на конвертацию и использование стандартных подходов и инструментария.
Похоже мы находимся на пороге нового большого направления исследований нейросетевых моделей.
Внутри OpenCV есть алгоритм локализации QR-кодов. Но он хорошо работает только в случае, когда сам штрихкод занимает большую часть распознаваемого изображения. Предложенный в данной публикации подход используется в качестве предобработки полноразмерного изображения перед декодирование штрихкода с помощью OpenCV.
2) Насчет названных вами архитектур — мы ни в каком виде не ориентируемся на сети с таким большим количеством параметров. Минимальное число коэффициентов среди названных вами архитектур примерно в 50-100 раз больше, чем в распознающих текст сетях у нас. И ведь это только число коэффициентов, количество операций же будет значительно больше (т.к. сети сверточные). Если мы будем использовать подобные модели при распознавании того же паспорта РФ, где происходит более 20 вызовов нейронных сетей на различных полях, то об использовании такой системы на мобильнике можно забыть (на условном iPhone 5s или того хуже, а не на самых современных флагманах с нейронными сопроцессорами).
3) Насчет облегчения тяжелых сетей, вместо того чтобы учить сразу легкую сеть — это крайне спорное утверждение. Если тяжелая сеть обучилась так, что после этого из нее можно выкинуть 90% связей — то мы предпочтем сделать это еще на этапе подготовки архитектуры. Здесь же мы предпочтем и убрать лишние слои, сократив их до минимума. К сожалению, главная проблема, в которой мы много раз убеждались на практике — чтобы получить быстро работающую сеть, ориентироваться только на число параметров/операций недостаточно. При прогоне обученной сети существует множество различных оптимизаций как быстро вычислять выход сети, в ходе которых та же сепарабельность фильтров и т.п. подходы могут полностью перекрываться оверхедами, связанными, например, с дополнительными копированиями.
2) Наши эксперименты показали, что эффект тем меньше, чем больше сверточных фильтров. Но тут есть одно но, а именно насколько ваши обучающие данные соответствуют тестовым. При малом числе фильтров сети ничего не остается, кроме как выцеплять наиболее значимые и глобальные для классов признаки. Имея же дополнительные фильтры в запасе, их можно настроить в линейно зависимом виде, но с прицелом на признаки, характерные не только для объектов, а для конкретного датасета в целом (без переобучения, учитывая искажения, особенности фона, и прочее). Так как наша регуляризация препятствует этому, качество может получиться даже хуже. Поэтому на практике все зависит от данных: если трейн слабо коррелирует с тестом, то мы предполагаем, что наша регуляризация только поможет. Если же трейн полно описывает закономерности в тестовых данных (что и было у нас в MNIST и CIFAR10), то обучение с большим количеством фильтров на особенностях датасета не является чем то плохим и потому пользы от нашей регуляризации будет меньше.
3) Мы не проводили подобных экспериментов, поэтому гарантировать какой-либо эффект тут затруднительно. Все зависит от того, на каких данных будете дообучать и насколько тяжела архитектура (аналогично ответу на 2ой вопрос).