Новогодняя интеллектуальная разминка с Cloud.ru 🦾
формулаВсем привет! Продолжаем занимать вас интеллектуальными задачами, и наша следующая — с уровнем уровень сложности «эксперт»:
Вы — Агент K, работающий в «Департамента мостов и тоннелей» («Люди в черном» / Men-in-Black). У вас 24 часа, чтобы обучить большую языковую модель для общения с аркелианцами. Сколько GPU NVIDIA A100 нужно для вашего суперкомпьютера, чтобы успеть обучить модель за это время и спасти Землю? Создайте формулу для вычисления машинного времени суперкомпьютера (в GFLOPS или в GPU-часах), затрачиваемого на обучение модели не хуже чем Llama 2 70B (с возможностью применения для оценки времени обучения других моделей).
Время обучения Llama 2 — 1720320 GPU-часов, для обучения модели использован датасет с 2 триллионами токенов. Другие необходимые данные возьмите в интернете.
Будет хорошо, если ваша формула будет учитывать размеры обучающего датасета, число параметров сети, число слоев, оценку количества эпох и другие необходимые вам параметры. Ожидаемая форма ответа — это методика / формула вашего расчета.
Варианты ответов оставляйте в комментариях 👇 В пятницу — 10 января — Павел Бузин (@pbuzin) — эксперт Cloud.ru по AI и машинному обучению, раскроет правильный ответ под этим постом.
И оставляйте реакции и предложения — как вам такой формат, что можно улучшить?
Вам может быть интересно: