Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Методы второго и более порядков плохо работают в задачах обучения нейросетей. Потомучто.
Я свечку не держал, конечно, но с таким количеством параметров на картинку 224×224 зачем нужна нейросеть? Это уже можно огрубить цвета до 12 бит и протабулировать выходные значения.
Ой, что-то туплю. 224×224 в степень идёт же.
Это, конечно, совершенно неожиданный и новый для меня аргумент.
Это безусловно справедливо, если конечно не утруждать себя рассмотрением конкретных деталей в конкретных случаях: не учитывать определяемую архитектурой разреженность матриц, особенностей методов решения линейных систем, где возможно оперировать частями матрицы и т.д. и т.п. Нехватка памяти тоже вопрос ныне решаемый, если затраты окупаются качественным улучшением результата.

Надеюсь, это сарказм, потому что скорость и память — это как раз самые первые аргументы против методов оптимизации высших порядков.
Не очень люблю апеллировать к этому, но в данном случае всё же скажу: не думаете же вы, что никто этого не пробовал?
Ох уж этот метод Ньютона