Статьи / Закладки / Профиль garwall / Хабр

olegbunin 30 мая 2023 в 12:01

Построение HPC/GPU кластеров для машинного обучения

12 мин

Блог компании Конференции Олега Бунина (Онтико)Машинное обучение*Распределённые системы*Искусственный интеллект

За последние несколько лет машинное обучение сильно изменилось. В обиход вошли так называемые Fundation model. Вы обучаете одну огромную общую модель, которая умеет делать почти всё одинаково. Это как вырастить огромное дерево. Однако для небольшой такой модели из 3 млрд параметров вам потребуется 400 GPU и обучение в течение 5 дней. Поэтому необходимо переходить на Machine Learning-кластера.

Дальнейшее повествование пойдет от имени Дмитрия Монахова, он занимался разработкой ядра Linux в Яндексе. Мне посчастливилось стать участником революции в Machine Learning, которая произошла за последние несколько лет. А именно модели выросли до такого размера, что они уже не влезают ни в один сервер, ни в несколько серверов, ни даже в одну стойку. Стали строить что-то огромное, но вдруг вспомнили, что был какой-то чудак, который имел опыт работы с распределёнными файловыми системами, а машинное обучение — это и есть использование распределённых алгоритмов.

+13

nick1612 10 мар 2023 в 19:20

KVM: Что такое Kernel-based Virtual Machine?

Средний

17 мин

58K

Программирование*Системное программирование*Виртуализация*C*Разработка под Linux*

Начнем с простого вопроса:

Что означает QEMU/KVM или QEMU-KVM?

Можно ответить - это QEMU + KVM или qemu-system, запущенный с kvm в качестве ускорителя. Но в какой-то степени это еще и анахронизм, так как с появлением KVM его разработчики для интеграции с QEMU поддерживали отдельный форк qemu-kvm, но начиная с QEMU версии 1.3 (декабрь 2012) все основные изменения из qemu-kvm были перенесены в главную ветку QEMU, а qemu-kvm объявлен устаревшим.

В разных дистрибутивах до сих пор еще можно встретить исполняемый файл qemu-kvm или просто kvm, но это лишь обертки над qemu-system:

exec qemu-system-x86_64 -enable-kvm "$@"

или симлинки:

/usr/bin/kvm -> qemu-system-x86_64

А в самом qemu существует проверка:

+81

Построение HPC/GPU кластеров для машинного обучения

KVM: Что такое Kernel-based Virtual Machine?

Информация

Специализация