Комментарии 1
По графикам видно, что всю работу провел градиентный спуск, но с ГА получилось в сто раз дольше.
То, что микширование параметров моделей с помощью ГА не сильно попортило картину, это следствие того, что это особенность нейросетей. Это было показано в нескольких работах пару лет назад. Вы можете «скрещивать» веса разных инстантов модели, просто беря их среднее значение. Результирующие веса получатся не хуже исходных.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Генетический алгоритм в помощь Adam — супер, но есть нюанс