Как стать автором
Обновить

CodeLama в вашей клавиатуре | Локальный Copilot для любого поля ввода

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров19K
Всего голосов 48: ↑48 и ↓0+48
Комментарии14

Комментарии 14

Неожиданный фидбек к тексту, который я неделю стыдился опубликовать ввиду его кринжёвости) Спасибо большое!

На фоне кривых переводов и пресс-релизов, под видом новостей, Ваш текст прямо таки жемчужина. И полезно, и интересно.
Наставил плюсов, насколько моя карма позволяет.
Попробую запустить локально на RTX4090

Спасибо, удачи в самостоятельном запуске!
Можете писать по поводу серьёзных проблем, если таковые возникнут.

можете поставить себе TabNine в VSCode

так говорят что она самая слабая на фоне остальных и бесплатных

Действительно. Вспомнил просто первое, что стало популярной и полностью рабочей альтернативой копилота ещё более года назад. Сейчас есть варианты и лучше, особенно ценны такие, которые не плюют в тебя popupом каждые пол часа, информирующим об крутейшей возможности кинуть в них своими деньгами)

месяц назад вышла code llama2, советую перейти на нее, меньше проблем с финишным токеном и вообще выглядит как нечто доведенное до ума.

Нет никакой CodeLLaMA2, вы предложили автору перейти с той модели, которую он использует, на её же саму. CodeLLaMA и есть дообученная на код LLaMA2.

И вышла она не месяц назад, а меньше двух недель назад.

meta предлагает целый комплект pretrained моделей llama2, в т.ч. ориентированные на chat и code (на форме загрузки предлагают как раз обычную+chat и code, но когда запускаешь утилиту закачки, там идет вопрос какую именно модель нужно качать)


На huggingface уже выложили кучу основанных на этих моделях тюнинговые версии (скорее всего незначительно ухудшенные), там загрузка проще.


p.s. я скачал llama2-70b уже 27.07.2023, а если посмотреть на даты создания файлов то там стоит 14.07.2023


Но да code версия зарелизена 24.08.2023

Статья хорошая, есть пара замечаний:

  • load_in_4bit=True по умолчанию использует fp4, да и двойная квантизация отрублена. nf4 как будто бы лучше, bnb_4bit_quant_type="nf4" в том же конфиге, там же и двойную квантизацию можно включить. В целом load_in_4bit едва ли предназначен для использования без дообучения, тут лучше смотреть в сторону gptq или ggml.

  • О квантизации позаботились не создатели Лламы, а разработчики bitsandbytes, accelerate и transformers, а конкретно Тим Деттмерс.

  • В большинстве случаев незачем писать собственный сервер, когда есть TGI или vLLM.

О, металлическая Упа!

Моя упа убежала(

Действительно класс. Ещё вчера думал о том как встроить GPT-подобную систему в свой Линукс, и думал в направлении интеграции с Gnome но вижу что смотрел не туда. Браво, спасибо, попробую!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории