Комментарии 2
интересно, что у больших моделей все плохо с повторяемотью обучения.
Т.е. процесс обучения так долог и дорог, что никто не хочет попробовать его позапускать десяток раз и "собрать статитстику". (или как там у экологов: "у нас нет второй Земли" :D )
Приходится экспериментировать и проверять гипотезы либо на небольших данных, либо на небольших моделях
Да уж, про воспроизводимость тут заикаться не приходится. С другой стороны передовые модели это уже не столько про науку, сколько про бизнес. Там и тренировочные данные-то закрытые, и всякие трюки дополнительные. Из хороших новостей - в 2018ом, когда я помню коллеги жаловались, что “только Гугл может BERT тренировать”, а сегодня недельку на обычном GPU сервере - и готово!
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Распределённое обучение нейронных сетей. Часть I