💡 Ниже краткий словарь базовых понятий в GPU-вычислениях для новичков, по сути написал для себя чтобы понимать что под капотом в ИИ - продуктах.

Базовые понятия

Термин

Определение

Аналогия

Зачем важно при аренде

GPU (Graphics Processing Unit)

Процессор, изначально созданный для рендеринга графики, но сейчас используемый для параллельных вычислений (ИИ, научные расчёты).

Автобус с 100 местами (потоками) против легковой машины CPU с 8 местами. Для перевозки 100 человек автобус быстрее.

Вы арендуете именно GPU, а не обычный сервер. От его мощности зависит скорость обучения модели.

VRAM (Video RAM)

Оперативная память, встроенная в видеокарту. Хранит модель, данные и промежуточные результаты во время вычислений.

Рабочий стол инженера. Чем больше стол — тем больше чертежей и деталей можно разложить одновременно.

Главный лимитирующий фактор: модель не запустится, если не влезет в VRAM. Для модели 7B параметров нужно минимум 14 ГБ.

CUDA (Compute Unified Device Architecture)

Проприетарная платформа и язык программирования от NVIDIA для запуска кода на GPU.

«Операционная система» для общения с видеокартой NVIDIA. Без неё код не поймёт, как использовать мощь GPU.

95% фреймворков ИИ (PyTorch, TensorFlow) работают через CUDA. При выборе образа проверяйте версию CUDA — должна совпадать с версией драйвера.

cuDNN

Библиотека от NVIDIA с оптимизированными операциями для нейросетей (свёртки, нормализация).

Готовые шаблоны для частых операций — вместо ручного распила доски используете заводскую заготовку.

Ускоряет обучение на 20–40%. Должна быть установлена в образе провайдера — иначе модель будет работать в 2–3 раза медленнее.

Архитектура GPU

Термин

Определение

Аналогия

Зачем важно при аренде

CUDA cores

Базовые вычислительные блоки в GPU NVIDIA. Отвечают за общие вычисления (сложение, умножение).

Рабочие на заводе, выполняющие простые операции (закрутить гайку, нанести клей).

Чем больше ядер — тем выше общая производительность. Но для ИИ важнее тензорные ядра (см. ниже).

Tensor cores

Специализированные блоки для операций с матрицами (умножение тензоров) — основа нейросетей.

Роботизированные станки на заводе, которые за 1 секунду делают то, что 100 рабочих делали бы 10 минут.

Критично для ИИ: модели на картах с тензорными ядрами (RTX 3090+, A100, H100) обучаются в 3–6 раз быстрее. Избегайте старых карт без тензорных ядер (GTX 1080 Ti).

FP16 / BF16 / FP32

Форматы хранения чисел с плавающей точкой: - FP32: 32-бит (стандартная точность) - FP16/BF16: 16-бит (половинная точность, но в 2 раза быстрее)

Взвешивание муки: - FP32: кухонные весы с точностью 0.1 г - FP16: мерные стаканы — быстрее, но ±5 г погрешность

Современные модели обучаются в FP16/BF16 без потери качества. Проверяйте, поддерживает ли карта нужный формат (все карты с тензорными ядрами — да).

Полоса пропускания памяти

Скорость, с которой данные перемещаются между процессором и видеопамятью (ГБ/с).

Ширина дороги от склада (память) к заводу (ядра). Узкая дорога = простои на производстве.

У RTX 4090 — 1 ТБ/с, у A100 — 2 ТБ/с. При обучении больших моделей узкая полоса становится «бутылочным горлышком».

Термины аренды и облачных вычислений

Термин

Определение

Аналогия

Зачем важно при аренде

Инстанс (Instance)

Виртуальный сервер с выделенным GPU, который вы арендуете на время.

Арендованный автомобиль: вы получаете машину на время поездки, а не покупаете её.

Вы платите за час работы инстанса. После остановки плата прекращается (если провайдер не обманывает — см. «скрытые платежи»).

Спот-инстанс (Spot instance)

Инстанс со скидкой 30–70%, но с риском прерывания в любой момент.

Авиабилет в последний момент за 30% цены — но авиакомпания может снять вас с рейса за 10 минут до вылета.

Экономия до 60%, но только для задач с чекпоинтами. Никогда не используйте для инференса в продакшене.

On-demand инстанс

Стандартный инстанс без скидки, но с гарантией непрерывной работы.

Обычный авиабилет — дороже, но место гарантировано до пункта назначения.

Выбирайте для критичных задач и дедлайнов.

Резервирование (Reservation)

Предоплата за гарантированный доступ к GPU в будущем (часто со скидкой 20–40%).

Бронирование столика в ресторане за неделю — гарантия места, иногда со скидкой.

Выгодно при стабильной загрузке >150 ч/мес. Не возвращается при отказе.

Чекпоинт (Checkpoint)

Сохранённое состояние модели в процессе обучения (веса, оптимизатор, номер эпохи).

Сохранение игры в RPG: если персонаж погибнет, начнёте не с начала, а с последнего сохранения.

Обязателен для спот-инстансов. Без чекпоинтов потеряете весь прогресс при прерывании.

Образ (Image)

Преднастроенный «слепок» системы с установленными фреймворками (ОС + CUDA + PyTorch).

Готовый кухонный набор: ножи заточены, специи на полках — можно сразу готовить.

Экономит 1–3 часа на настройку. Выбирайте образ под вашу задачу («Stable Diffusion», «PyTorch 2.3»).

Cold boot

Первый запуск инстанса после долгого простоя — загрузка ОС, драйверов, образа.

Прогрев двигателя автомобиля зимой — первые 2 минуты медленнее.

Занимает 60–180 сек. У некоторых провайдеров (Сбер) оптимизирован до 30 сек.

Термины машинного обучения и ИИ

Термин

Определение

Аналогия

Зачем важно при аренде

Inference (Инференс)

Запуск уже обученной модели для получения результата (генерация текста, изображения).

Печать книги на готовом типографском станке — быстро и предсказуемо.

Требует меньше ресурсов: модель 7B параметров для инференса — 14 ГБ VRAM, для обучения — 35+ ГБ.

Training (Обучение)

Процесс настройки весов модели на данных.

Написание книги с нуля — долго, требует много черновиков (итераций).

Требует в 2–3× больше VRAM и времени. Выбирайте мощный инстанс (2×RTX 4090 или A100).

Fine-tuning

Дообучение предобученной модели на узком датасете (адаптация под домен).

Обучение шефа-повара новому блюду вместо обучения готовить с нуля.

Экономит 90% времени и ресурсов против обучения с нуля. Используйте методы вроде QLoRA для экономии памяти.

QLoRA

Техника дообучения с квантизацией до 4 бит + адаптация только малой части весов.

Перекрасить стены в доме вместо строительства нового — дешевле и быстрее.

Позволяет дообучать модель 13B на одной RTX 4090 (24 ГБ). Без QLoRA потребовалось бы 2–4 карты.

Quantization (Квантизация)

Снижение точности весов модели (например, с 16 бит до 4 бит) для уменьшения потребления памяти.

Сжатие фото из RAW в JPEG: файл меньше, качество почти не теряется.

Модель 7B в 16-бит: 14 ГБ → в 4-бит: 4 ГБ. Позволяет запускать большие модели на слабых картах.

Prompt

Текстовый запрос к языковой модели («Напиши стих про кота»).

Рецепт для повара: чем точнее рецепт — тем лучше блюдо.

Важно для безопасности: промпты с ПДн могут логироваться провайдером. Избегайте передачи ФИО/номеров в промптах на непроверенных платформах.

Tokens

Части текста, на которые разбивается промпт перед подачей в модель (слова, подслова).

Разрезание пирога на кусочки перед подачей гостям.

Стоимость инференса часто считается за токен. Модель обрабатывает ~20 токенов/сек на RTX 4090.

Термины безопасности и данных

Термин

Определение

Аналогия

Зачем важно при аренде

Локализация данных

Физическое размещение серверов и данных на территории РФ.

Хранение денег в сейфе в Москве против сейфа в Лондоне.

Обязательно для ПДн по ФЗ-152. Проверяйте документы провайдера — устных заверений недостаточно.

Шифрование at rest

Шифрование данных на диске инстанса в состоянии покоя (когда вычисления не идут).

Замок на сейфе, даже когда вы не работаете с деньгами.

Защищает от извлечения диска из сервера. Включайте галочку при создании инстанса (есть у Сбера/Яндекса).

Шифрование in transit

Шифрование данных при передаче (загрузка/выгрузка).

Броневик для перевозки денег вместо обычного автомобиля.

Используйте SFTP/HTTPS вместо FTP/HTTP. Большинство провайдеров поддерживают по умолчанию.

Изоляция (Isolation)

Отделение вашего инстанса от других пользователей на уровне гипервизора.

Отдельная квартира в доме против коммуналки.

У крупных провайдеров — аппаратная изоляция. У бюджетных — возможна утечка через общую память хоста.

СЗИ (Средство защиты информации)

Программно-аппаратный комплекс для защиты ПДн по требованиям ФСТЭК.

Сигнализация + камеры + охрана для банка.

Обязателен для госконтрактов. Провайдер должен предоставить сертификат СЗИ.

Распространённые заблуждения новичков

Заблуждение

Реальность

Как избежать

«Чем больше ядер у GPU — тем лучше»

Для ИИ важнее тензорные ядра и объём VRAM. RTX 4090 (16 384 CUDA cores) быстрее обучает модели, чем карта с 20 000 ядер без тензорных блоков.

Смотрите на архитектуру (Ada Lovelace, Ampere) и наличие тензорных ядер, а не только на число ядер.

«24 ГБ памяти = могу запустить любую модель до 24 ГБ»

При обучении требуется в 2–3× больше памяти из-за градиентов и оптимизатора. Модель 13B (26 ГБ в FP16) не запустится на 24 ГБ без квантизации.

Для обучения: требуемый VRAM = размер модели × 2.5. Для инференса: ×1.2.

«Спот-инстанс = всегда дешевле»

Если задача прервётся 3 раза подряд без чекпоинтов — вы потратите больше времени и денег, чем на гарантированный инстанс.

Используйте спот только с автоматическими чекпоинтами каждые 15 минут.

«Образ с PyTorch = всё будет работать»

Версия CUDA в образе должна совпадать с версией драйвера на карте. PyTorch 2.3 + CUDA 12.1 на карте с драйвером под CUDA 11.8 = ошибка.

Перед запуском выполните nvidia-smi → посмотрите поддерживаемую версию CUDA → выберите совместимый образ.

«Провайдер хранит мои данные только пока инстанс работает»

Многие провайдеры сохраняют данные в объектном хранилище после остановки инстанса и тарифицируют хранение отдельно.

Удаляйте датасеты и чекпоинты сразу после завершения задачи или перемещайте в «холодное» хранилище.

Быстрая шпаргалка для первых 5 запусков

Ситуация

Что проверить в первую очередь

Модель не запускается

1. nvidia-smi → сколько свободно VRAM? 2. Размер модели в ГБ × 1.5 (для инференса) или ×2.5 (для обучения)

Очень медленно работает

1. nvidia-smi dmon → загрузка GPU (должна быть 80–100%) 2. Если загрузка <50% — «узкое горлышко» в CPU/диске

Счёт растёт быстрее ожидаемого

1. Работает ли инстанс после остановки задачи? 2. Сколько ГБ исходящего трафика использовано?

Ошибка «CUDA out of memory»

1. Используйте квантизацию (4-bit) 2. Уменьшите размер батча (`batch_size=1`) 3. Для обучения — включите градиентный аккумулятор

Не могу подключиться к инстансу

1. Есть ли публичный IP? 2. Открыт ли порт 22 (SSH) в настройках сети? 3. Не блокирует ли брандмауэр провайдера подключение?

💡 Главный совет: Первые 3 запуска делайте на небольших задачах (генерация 10 изображений) с гарантированным инстансом. Освойте интерфейс и автоматизацию остановки — только потом переходите к споту и большим моделям.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Как получили GPU для своих ИИ — проектов и продуктов?
50%Купил(а) себе в стойку7
0%Арендовал(а) себе в стойку0
14.29%Арендую в облаке2
35.71%Думаю, не решил(а) пока5
Проголосовали 14 пользователей. Воздержались 4 пользователя.