Как стать автором
Обновить

Слив языковой модели LLaMA 3.1 размером 405B (а также 70B, 8B). Главный открытый конкурент GPT-4o

Время на прочтение1 мин
Количество просмотров19K

После выхода LLaMA 3 70B многие ждали обещанную модель размером 400B. Эта модель должна была составить полноценную конкуренцию с GPT-4, при этом оставаться с открытыми весами. Правда некоторые слухи утверждали, что в открытый доступ 400B модель не попадет и будет доступна только через подписку. И тут неожиданно была слита даже не ожидаемая LLaMA 3, а улучшенная версия LLaMA 3.1.

Главное изменение, помимо улучшения качества, в версии 3.1 размер контекста увеличен до 128K вместо 8K. По некоторым бенчмаркам LLaMA 3.1 размером 8B превосходит LLaMA 3 70B. А модель на 405B конкурирует с GPT-4o.

А модели 70B и 8B получены, судя по всему, путем дистилляции из 405B модели, что несколько снижает их качество, по сравнению с нативно обученными 70B моделями, но при этом по бенчмаркам они всё равно обходят предыдущую Llama 3 70B.

К сожалению, репозитории huggingface с 8B и 70B быстро удаляют, поэтому актуальных ссылок пока нет, возможно, кто-то поделится в комментариях.

Обсуждение на reddit и торрент файл модели 405B (суммарный вес файлов 820гб): https://www.reddit.com/r/LocalLLaMA/comments/1e98zrb/llama_31_405b_base_model_available_for_download/

405B модель на huggingface: https://huggingface.co/v2ray/Llama-3.1-405B/tree/main

Теги:
Хабы:
Всего голосов 20: ↑19 и ↓1+18
Комментарии56

Другие новости

Истории

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн
10 – 11 октября
HR IT & Team Lead конференция «Битва за IT-таланты»
МоскваОнлайн
25 октября
Конференция по росту продуктов EGC’24
МоскваОнлайн
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн