Как стать автором
Обновить

Комментарии 9

Спасибо за перевод! По теме дообучения LLM информации гораздо меньше, чем по моделям для генерации изображений, любые статьи на эту тему интересны

Тенденция "Продал квартиру - купил видюху" сохраняется. Хоть и в 2-3 раза дешевле конкурента. Интересно сравнить инвестицию "в видюху" с другими инвестициями. Потому что 8 GPU AMD MI300x стоят не мало.

Для обучения нужно гораздо больше ресурсов, чем для запуска. Потому для тюнинга можно пользоваться поминутной арендой, например на together.ai и потом использовать LoRA на своём оборудовании.

Но вообще очень интересна экономическая составляющая статьи, во сколько это обошлось.

Если учесть что каждый параметр 4 байта, 405b * 4 = 1,62 ТБ VRAM для запуска модельки, т.е. по сути те же 8 GPU AMD MI300x по 192 Gb VRAM.

Да. Экономика очень интересна. Потому что если не будет независимых моделей, то возникнет цензура ИИ.

Запускать-то модели можно (и нужно) на FP16 и даже всяких FP8. Т.е. реальная потребность памяти для запуска минимум в два раза меньше того, что вы посчитали. А бывает и в четыре.

Ноль полезности. Зачем использовать Jax для тюнинга. Когда все научное сообщество использует pytorch? Прочитав статью думаю, что начинающие энтузиасты решат, что нужно купить AMD и изучать Jax. Но это путь в никуда, взять два самых непопулярных продукта и попытаться из них что то сделать.

Не самая лучшая статья для перевода!

Как минимум, аргументировали улучшенным соотношением цена/производительность, что немаловажно. То есть эти самые карты мощнее чем последние H100 от NVIDIA. Плюс, насколько я понял, JAX поддерживает карты NVIDIA, то есть эта библиотека более универсальная, и более, так сказать, свежая.

В реальности энтузиаст файнтюнинга может себе позволить тьюнить модели 8-13B, либо на арендованных серверах, либо имея собственные 1-2 карты 3090 или 4090. И для этого библиотеки pytorch , transformers - лучшее.

Время здесь даже не главное, сбор и подготовка датасета под свои потребности займёт в разы больше времени. И ручная валидация результатов.

И в статье нет главного - насколько файнтюненная 405 насколько лучше, чем файтюненная на том же датасете 70B или даже 13B, к примеру? Подозреваю, что для большинства задач с небольшим датасетом выигрыша практически не будет заметно...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории