Comments 2
По графикам видно, что всю работу провел градиентный спуск, но с ГА получилось в сто раз дольше.
То, что микширование параметров моделей с помощью ГА не сильно попортило картину, это следствие того, что это особенность нейросетей. Это было показано в нескольких работах пару лет назад. Вы можете «скрещивать» веса разных инстантов модели, просто беря их среднее значение. Результирующие веса получатся не хуже исходных.
Mickeyland плюсует !!!
Sign up to leave a comment.
Генетический алгоритм в помощь Adam — супер, но есть нюанс