Pull to refresh
0
0
Send message

Да, очень интересно то же самое, но на GPU. Из своего опыта, делал замеры 8b модельки, но не в llama.cpp, а торч+transformers в fp16/bf16/q8(bnb), bf16 просаживало скорость на процентов 20, q8 замедляло работу раза в два. Torchao в fp8 почему-то работает в 2 раза медленнее q8, vllm в fp16/fp8 работает на порядок быстрее торча. Использование всяких compile, flash_attention и прочего доступного в transformers ускорения не давало. Тестил на x2 4060ti 16гб компе.

Юзаю codestral q4 + ollama + continue(vs code) для автодополнения в коде, прикольно, жаль ничего особо лучше на мои 16гб VRAM не влезет, а дополнение кода с CPU offload уж очень медленно.

Стоит отметить что для автодополнения нужны(крайне желательны) модели с FIM(fill in the middle) поскольку там юзается другой формат промпта где модели даётся кусок кода до и после места, и модель под эту задачу специально обучают.

Ещё больше из опыта перевода модели на инференс сервер заметил что квантизация в инты через bnb(bits and bytes, стандартный метод в transformers) работает в 2-3 раза медленнее fp/bf16 торча, для сервиса пришлось юзать vLLM для fp8 квантизация, она скорость не теряет, но тут надо железо поновее.

Для интереса можно было бы ещё vMamba использовать, вроде довольно перспективная архитектура

Проблема не только в ключе, а в ВПН тоже. Сделал себе аккаунт сам, но периодически сам openAI блочит доступ из ВПН, и надо искать новый рабочий. Тестил и платный ВПН, отвалился за полтора месяца.

RLHF, которым обучали chatgpt, как-то похоже и работает. Взятую LLM обучают на фидбеке из сравнений генерируемых ответов, фидбек предоставляется людьми. Там правда все ещё запутаннее, ибо в конце обучают ещё и модель которая умеет этот самый фидбек имитировать, чтоб не размечать все данные только людьми, но в целом происходит именно файнтюнинг на основе оценок людей. Конечно если я правильно понимаю процесс...

Если бы перенос ещё нормально работал, эх. Из плейлиста на 1300 треков осталось 900 :(

Надо наконец доделать оффлайн библиотеку, но на шаге поиска, добавления и категоризации синглов что-то стало больно...

Есть же stream deck уже давно, довольно похожий функционал.

Information

Rating
5,263-rd
Registered
Activity