Друзья, это наконец случилось. В предыдущей новости были ссылочки на демо Викуньки, но вчера ночью опубликовали саму модель. Сегодня её уже квантировали до 4 бит и сконвертировали в формат ggml (Georgi Gerganov Machine Learning, полагаю), а значит нам ничего не стоит её скачать, прикрутить к llama.cpp и насладиться самой продвинутой языковой моделью на своём домашнем компьютере. Без смс и регистраций.
Чем Викунья лучше, чем всё остальное, что выходило раньше? Размером контекста, 2048 токенов против 512, и датасетом. Если все предыдущие модели (Alpaca, gpt4all, Dolly) брали некоторый синтетический датасет, который им нагенерировала ChatGPT, то в случае с Викуньей, исследователи откопали на просторах интернета ShareGPT - сайт, на котором случайные люди делились лучшими диалогами с ChatGPT. Эдакий краудсорс. Там и выборка разнообразнее, и диалоги длинее, и ненароком получился reinforcement learning from human feedback.
Успей скачать и закрутить дома, пока корпорации не прикрыли доступ свободным исследователям :) Ибо вопросы лицензии стоят очень остро, и свободное распространение этих моделей могут прихлопнуть.
Запуск простой:
1) git clone https://github.com/ggerganov/llama.cpp.git
2) качаем модель и кладём туда же
3) make
4) ./main -i --interactive-first -r "### Human:" --temp 0 -c 2048 -n -1 --ignore-eos --repeat_penalty 1.2 --instruct -m ggml-vicuna-13b-4bit.bin
Если у вас CPU с большим количеством тредов, можно посмотреть на параметр -t X. По умолчанию X = 4, если процессор умеет больше - поднимайте.
На моём стареньком AMD 3400g с 16 Гб памяти без дискретной видеокарты пыхтит, но работает. Но в случае с llama.cpp дискретная видеокарта и не поможет, проект крутит модели чисто на CPU.
Маленький апдейт: новые модели появляются как горячие пирожки. Вот еще парочку:
* Biaze - https://paperswithcode.com/paper/baize-an-open-source-chat-model-with
* Koala (Berkeley) - https://bair.berkeley.edu/blog/2023/04/03/koala/