Комментарии 14
Отлично написано)
На фоне кривых переводов и пресс-релизов, под видом новостей, Ваш текст прямо таки жемчужина. И полезно, и интересно.
Наставил плюсов, насколько моя карма позволяет.
Попробую запустить локально на RTX4090
можете поставить себе TabNine в VSCode
так говорят что она самая слабая на фоне остальных и бесплатных
месяц назад вышла code llama2, советую перейти на нее, меньше проблем с финишным токеном и вообще выглядит как нечто доведенное до ума.
Нет никакой CodeLLaMA2, вы предложили автору перейти с той модели, которую он использует, на её же саму. CodeLLaMA и есть дообученная на код LLaMA2.
И вышла она не месяц назад, а меньше двух недель назад.
meta предлагает целый комплект pretrained моделей llama2, в т.ч. ориентированные на chat и code (на форме загрузки предлагают как раз обычную+chat и code, но когда запускаешь утилиту закачки, там идет вопрос какую именно модель нужно качать)
На huggingface уже выложили кучу основанных на этих моделях тюнинговые версии (скорее всего незначительно ухудшенные), там загрузка проще.
p.s. я скачал llama2-70b уже 27.07.2023, а если посмотреть на даты создания файлов то там стоит 14.07.2023
Но да code версия зарелизена 24.08.2023
Статья хорошая, есть пара замечаний:
load_in_4bit=True по умолчанию использует fp4, да и двойная квантизация отрублена. nf4 как будто бы лучше, bnb_4bit_quant_type="nf4" в том же конфиге, там же и двойную квантизацию можно включить. В целом load_in_4bit едва ли предназначен для использования без дообучения, тут лучше смотреть в сторону gptq или ggml.
О квантизации позаботились не создатели Лламы, а разработчики bitsandbytes, accelerate и transformers, а конкретно Тим Деттмерс.
В большинстве случаев незачем писать собственный сервер, когда есть TGI или vLLM.
О, металлическая Упа!
Действительно класс. Ещё вчера думал о том как встроить GPT-подобную систему в свой Линукс, и думал в направлении интеграции с Gnome но вижу что смотрел не туда. Браво, спасибо, попробую!
CodeLama в вашей клавиатуре | Локальный Copilot для любого поля ввода