Пост @atomlib — Машинное обучение

1 авг 2024 в 11:497K

Машинное обучение * Искусственный интеллектФинансы в ITIT-компанииNatural Language Processing *

Для обучения Llama 4 наверняка потребуется почти в 10 раз больше вычислительных мощностей, чем для Llama 3. Такое заявление во время конференц-звонка по доходам за второй квартал 2024 года сделал Марк Закерберг, глава экстремисткой организации Meta, деятельность которой запрещена.

Совсем недавно вышла Llama 3.1 в нескольких вариантах, в одном из которых у большой языковой модели 405 млрд параметров. Для предобучения этой БЯМ 16 тыс. ускорителей Nvidia H100 обрабатывали датасет из 15 трлн токенов в течение 54 дней. Кстати, у варианта Llama 3.1 на 405 млрд параметров совсем недемократичные требования к инференсу: даже на RTX 4090 токен она будет выдавать по полчаса.

Стоимость предобучения настолько огромных БЯМ составляет сотни миллионов долларов. Блогеры прикидывают, что на обучение Llama 3.1 было потрачено никак не меньше $100 млн. Ресурс Information утверждает, что OpenAI тратит в год на обучение и запуск моделей по $7 млрд.

При этом БЯМ семейства Llama 3 бесплатно вышли для всех желающих, а продукты OpenAI проприетарны и работают через платный API. Впрочем, это никак не помогает последней выйти в плюс по деньгам. Если текущая финансовая траектория сохранится, OpenAI потеряет в этом году $5 млрд.

Публикации

Ближайшие события