Комментарии 9
Спасибо за перевод! По теме дообучения LLM информации гораздо меньше, чем по моделям для генерации изображений, любые статьи на эту тему интересны
Тенденция "Продал квартиру - купил видюху" сохраняется. Хоть и в 2-3 раза дешевле конкурента. Интересно сравнить инвестицию "в видюху" с другими инвестициями. Потому что 8 GPU AMD MI300x стоят не мало.
Для обучения нужно гораздо больше ресурсов, чем для запуска. Потому для тюнинга можно пользоваться поминутной арендой, например на together.ai и потом использовать LoRA на своём оборудовании.
Но вообще очень интересна экономическая составляющая статьи, во сколько это обошлось.
Если учесть что каждый параметр 4 байта, 405b * 4 = 1,62 ТБ VRAM для запуска модельки, т.е. по сути те же 8 GPU AMD MI300x по 192 Gb VRAM.
Ноль полезности. Зачем использовать Jax для тюнинга. Когда все научное сообщество использует pytorch? Прочитав статью думаю, что начинающие энтузиасты решат, что нужно купить AMD и изучать Jax. Но это путь в никуда, взять два самых непопулярных продукта и попытаться из них что то сделать.
Не самая лучшая статья для перевода!
Как минимум, аргументировали улучшенным соотношением цена/производительность, что немаловажно. То есть эти самые карты мощнее чем последние H100 от NVIDIA. Плюс, насколько я понял, JAX поддерживает карты NVIDIA, то есть эта библиотека более универсальная, и более, так сказать, свежая.
В реальности энтузиаст файнтюнинга может себе позволить тьюнить модели 8-13B, либо на арендованных серверах, либо имея собственные 1-2 карты 3090 или 4090. И для этого библиотеки pytorch , transformers - лучшее.
Время здесь даже не главное, сбор и подготовка датасета под свои потребности займёт в разы больше времени. И ручная валидация результатов.
И в статье нет главного - насколько файнтюненная 405 насколько лучше, чем файтюненная на том же датасете 70B или даже 13B, к примеру? Подозреваю, что для большинства задач с небольшим датасетом выигрыша практически не будет заметно...
последние от NVIDIA - B200 ( 192GB Vram)
Опыт тюнинга Llama3 405B на AMD MI300x