Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!

По графикам видно, что всю работу провел градиентный спуск, но с ГА получилось в сто раз дольше.
То, что микширование параметров моделей с помощью ГА не сильно попортило картину, это следствие того, что это особенность нейросетей. Это было показано в нескольких работах пару лет назад. Вы можете «скрещивать» веса разных инстантов модели, просто беря их среднее значение. Результирующие веса получатся не хуже исходных.
Mickeyland плюсует !!!
Генетический алгоритм в помощь Adam — супер, но есть нюанс