Pull to refresh
439.88
YADRO
Тут про железо и инженерную культуру

Обучение модели GPT-2: часы вместо недель

Для тестирования GPU-сервера YADRO G4208P G3 в конфигурации с восемью Н100 NVL / RTX 4090 мы выбрали бенчмарк на основе реализации обучения для модели GPT-2 на 1,558 миллиарда параметров из репозитория проекта llm.c Андрея Карпаты. 

Эта модель была представлена OpenAI в блоге Better Language Models and Their Implications в феврале 2019 года. Тогда для ее обучения требовались команда инженеров и десятки топовых V100, а процесс длился неделями.

Сейчас, шесть лет спустя, достаточно одного сервера с восемью картами H100, а обучение занимает 1–1,6 суток. Все это благодаря развитию GPU, современным библиотекам, таким как CUDA и cuDNN, а также открытым датасетам типа FineWeb-Edu. 

Андрей Карпаты показывает, что это возможно даже без фреймворков вроде PyTorch или TensorFlow. Все обучение реализовано примерно в 5 тысячах строк на C и CUDA. 

Мы проверили, как справляются серверы YADRO c обучением GPT-2 на 1,6 миллиарда параметров. Обучение на конфигурации G4208P с восемью H100 NVL заняло 38 часов, или примерно 1.6 суток. На графике ниже показываем соотношение времени исполнения 50 шагов обучения на конфигурации G4208P с RTX 4090 по сравнению с конфигурацией на Н100 NVL: 

Артём Маклаев с командой, которая занимается оценкой производительности серверных платформ для ИИ-задач в YADRO, поделился в статье результатами десятка тестов GPU-сервера с 8x Н100 NVL / RTX 4090: от инференса моделей распознавания речи до обучения LLM.

Tags:
0
Comments0

Articles

Information

Website
yadro.com
Registered
Founded
Employees
5,001–10,000 employees
Location
Россия
Representative
Ульяна Соловьева