Комментарии 18
Ждём ебилдов GGUF-ов
Так все уже там: https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct-GGUF
Пора дать локальным моделькам ещё один шанс. 2.5 как-то не зашла, может 2.5.1 зайдет
Я помню, как раньше надо было иметь кластер видеокарт для работы моделей машинного обучения. Как сейчас с этим обстоят дела?
Ты просто залил эту модель в ComfyUI и вперёд, она просто работает? Ноутбучная 4070 потянет?
Можно поиграться с квантованием, но дефолтные 7b модельки обычно влазят в 8 gb vram. Так что должно хватить.
ComfyUI тут не при чём, гуглите TabbyAPI, KoboldCCP и oobabooga.
Отредактировать комментарий уже не могу, поэтому раскрою мысль отдельно.
llamacpp - позволяет запускать GGUF-модели. Основной плюс - умеет делить модель между VRAM и RAM, и запускать модели целиком из RAM, хоть и с огромным ударом по скорости. На маках М-серии удар не такой сильный, там вполне можно использовать для запуска +70B.
KoboldCPP - питоний гуй поверх llamacpp, в основном удобен именно тем, что настройки можно нащёлкать вместо написания простыней в командной строке. Бонусом интегрирует в себя веб-интерфейс, Whisper STT (преобразование речи в текст) и SD.cpp (переделка StableDiffusion на крестах). Есть форк с интеграцией ROCm для запуска на Radeon.
TabbyAPI - реализация EXL2. Работает быстрее, чем llama, и не тормозит при большом размере контекста. Главный минус - жёстко ограничен размерами VRAM, не умеет отгружать "лишние" части модели в RAM.
vLLM - почти чистый Transformers, умеет загружать "оригинальные" модели. Вроде как умеет отгружать лишнее в RAM, но в целом больше заточен под работу с GPU-фермами. Главный минус - модели на FP16 зело жирные (Llama 3 8B в FP16 весит 16 гигабайт сама по себе, а ведь ещё память под контекст нужна). Есть методы "сжатия" NF4 и bitsandbytes, но они сильно бьют по "умственным" способностям модели. Насколько мне известно, это единственный способ запустить vision-модели не прибегая к костылям с подгрузкой внешнего mmproj.
oobabooga - огромный комбайн из всего и вся, позволяет запускать модели, смешивать их, перетренировывать, писать бенчмарки и ещё по мелочи. Сам по себе модели не запускает, но в комплекте идут несколько разных движков (AWQ, GPTQ, EXL2, Llamacpp и чистый Transformers) и REST API для генерации текста.
Вопрос, а если на Авито взять пяток 8гиговых 1070/rtx 580, сделать ферму, получится ли через vLLM или иное получить приемлемую производительность? Или 4060ti с оперативкой будет сопоставима по стоимости/цене при отсутствии гемора и кратно меньшим потреблением ээ?
llama.cpp / ollama, кажется koboldcpp считается проще
Я на стационарном с RTX 3060 запустил через ollama. Работает шустро. Там модель весит 4.7 Гб. И здесь главное, чтобы памяти хватило.
но т.к. есть официальная, то уже и не особенно интересно
Официальная там всё ещё 2.5 и она не даёт такие результаты как я понял, а "2.5.1" была слита случайно по ошибке, коммит там всё ещё можно найти.
Там уже обновленная версия и она должна быть так же хороша, gguf перезалиты несколько часов назад, и большие опенсорсные модели QWEN (которые сравнимы с GPT4o ) тоже. Пост в их блоге: https://qwenlm.github.io/blog/qwen2.5-coder-family/
было бы не плохо если бы сравнивались конкретные языки, а не просто общий бенчмарк
Обычно с этим просто, чем больше кода в интернете, тем лучше работает. Лучше всех Python, потом JS и т.д.
было бы не плохо если бы сравнивались конкретные языки, а не просто общий бенчмарк
Вышла Qwen2.5-Coder 32B. Открытая локальная модель для кода конкурирующая с GPT-4o
Сравнение с 48 языками для Coder 32B:

Падение качества от модели к модели с уменьшением размера B:

Попробовать онлайн все версии от 32B до 0.5B: https://huggingface.co/spaces/Qwen/Qwen2.5-Coder-demo
Супер, спасибо! Не встречал этот бенчмарк раньше, очень любопытный https://mceval.github.io/ . Судя по гитхабу ему ему полгода уже, не очень понятно когда именно модели учили, теоретически мог попасть в обучающий датасет, но все равно интересно
Версии от 7b до 32b вышли
AI copilot программист приличного уровня теперь оффлайн — Qwen 2.5.1 Coder 7B