1) llama.cpp и vllm поддерживают сетапы на несколько GPU, так что 2x4060ti будет работать.
2) лучшее предложение на рынке - бу 3090. Лично я бы брал 4060ti только если планируете запускать модели в fp8, вне этого кейса 3090 будет лучше.
3) Можно посмотреть на Интел/АМД, но там не все фреймворки будут запускаться нормально. Тут лучше к пользователям этого железа.
4) Совсем упорото - Tesla p40 бу с Китая. Но вы задолбаетесь отлаживать это(никаких свежих дров нет), собирать сервер(карты без охлаждения встроенного) и т.д., так что лучше не надо
Нет, continue это не то. В continue есть две функции - tab auto complete, как копайлот по сути, и вопросы по коду. Cursor же имеет агентские способности. Если хочется все способности курсора, то надо ставить плагин cline. Ну или aider как выше подсказали, но это скорее внешняя тулза которую можно встроить в vs code.
Да, очень интересно то же самое, но на GPU. Из своего опыта, делал замеры 8b модельки, но не в llama.cpp, а торч+transformers в fp16/bf16/q8(bnb), bf16 просаживало скорость на процентов 20, q8 замедляло работу раза в два. Torchao в fp8 почему-то работает в 2 раза медленнее q8, vllm в fp16/fp8 работает на порядок быстрее торча. Использование всяких compile, flash_attention и прочего доступного в transformers ускорения не давало. Тестил на x2 4060ti 16гб компе.
Юзаю codestral q4 + ollama + continue(vs code) для автодополнения в коде, прикольно, жаль ничего особо лучше на мои 16гб VRAM не влезет, а дополнение кода с CPU offload уж очень медленно.
Стоит отметить что для автодополнения нужны(крайне желательны) модели с FIM(fill in the middle) поскольку там юзается другой формат промпта где модели даётся кусок кода до и после места, и модель под эту задачу специально обучают.
Ещё больше из опыта перевода модели на инференс сервер заметил что квантизация в инты через bnb(bits and bytes, стандартный метод в transformers) работает в 2-3 раза медленнее fp/bf16 торча, для сервиса пришлось юзать vLLM для fp8 квантизация, она скорость не теряет, но тут надо железо поновее.
Проблема не только в ключе, а в ВПН тоже. Сделал себе аккаунт сам, но периодически сам openAI блочит доступ из ВПН, и надо искать новый рабочий. Тестил и платный ВПН, отвалился за полтора месяца.
RLHF, которым обучали chatgpt, как-то похоже и работает. Взятую LLM обучают на фидбеке из сравнений генерируемых ответов, фидбек предоставляется людьми. Там правда все ещё запутаннее, ибо в конце обучают ещё и модель которая умеет этот самый фидбек имитировать, чтоб не размечать все данные только людьми, но в целом происходит именно файнтюнинг на основе оценок людей. Конечно если я правильно понимаю процесс...
Вчера видел скрины с Китая (+nvidia-smi) 4090 с модом на 96гб памяти, за что-то порядка 4.5к баксов продавалась)
1) llama.cpp и vllm поддерживают сетапы на несколько GPU, так что 2x4060ti будет работать.
2) лучшее предложение на рынке - бу 3090. Лично я бы брал 4060ti только если планируете запускать модели в fp8, вне этого кейса 3090 будет лучше.
3) Можно посмотреть на Интел/АМД, но там не все фреймворки будут запускаться нормально. Тут лучше к пользователям этого железа.
4) Совсем упорото - Tesla p40 бу с Китая. Но вы задолбаетесь отлаживать это(никаких свежих дров нет), собирать сервер(карты без охлаждения встроенного) и т.д., так что лучше не надо
Нет, continue это не то. В continue есть две функции - tab auto complete, как копайлот по сути, и вопросы по коду. Cursor же имеет агентские способности. Если хочется все способности курсора, то надо ставить плагин cline. Ну или aider как выше подсказали, но это скорее внешняя тулза которую можно встроить в vs code.
Странный выбор моделей, ни t-lite, ни vikhr, зато сайга годичной давности...
Да, очень интересно то же самое, но на GPU. Из своего опыта, делал замеры 8b модельки, но не в llama.cpp, а торч+transformers в fp16/bf16/q8(bnb), bf16 просаживало скорость на процентов 20, q8 замедляло работу раза в два. Torchao в fp8 почему-то работает в 2 раза медленнее q8, vllm в fp16/fp8 работает на порядок быстрее торча. Использование всяких compile, flash_attention и прочего доступного в transformers ускорения не давало. Тестил на x2 4060ti 16гб компе.
Юзаю codestral q4 + ollama + continue(vs code) для автодополнения в коде, прикольно, жаль ничего особо лучше на мои 16гб VRAM не влезет, а дополнение кода с CPU offload уж очень медленно.
Стоит отметить что для автодополнения нужны(крайне желательны) модели с FIM(fill in the middle) поскольку там юзается другой формат промпта где модели даётся кусок кода до и после места, и модель под эту задачу специально обучают.
Ещё больше из опыта перевода модели на инференс сервер заметил что квантизация в инты через bnb(bits and bytes, стандартный метод в transformers) работает в 2-3 раза медленнее fp/bf16 торча, для сервиса пришлось юзать vLLM для fp8 квантизация, она скорость не теряет, но тут надо железо поновее.
Для интереса можно было бы ещё vMamba использовать, вроде довольно перспективная архитектура
Проблема не только в ключе, а в ВПН тоже. Сделал себе аккаунт сам, но периодически сам openAI блочит доступ из ВПН, и надо искать новый рабочий. Тестил и платный ВПН, отвалился за полтора месяца.
RLHF, которым обучали chatgpt, как-то похоже и работает. Взятую LLM обучают на фидбеке из сравнений генерируемых ответов, фидбек предоставляется людьми. Там правда все ещё запутаннее, ибо в конце обучают ещё и модель которая умеет этот самый фидбек имитировать, чтоб не размечать все данные только людьми, но в целом происходит именно файнтюнинг на основе оценок людей. Конечно если я правильно понимаю процесс...
Если бы перенос ещё нормально работал, эх. Из плейлиста на 1300 треков осталось 900 :(
Надо наконец доделать оффлайн библиотеку, но на шаге поиска, добавления и категоризации синглов что-то стало больно...
Есть же stream deck уже давно, довольно похожий функционал.