AndyKy 12 ноя 2024 в 14:41

AI copilot программист приличного уровня теперь оффлайн — Qwen 2.5.1 Coder 7B

1 мин

5.3K

Искусственный интеллектМашинное обучение*Программирование*

Комментарии 18

MountainGoat 12 ноя 2024 в 15:25

Ждём ~~ебилдов~~ GGUF-ов

AndyKy 12 ноя 2024 в 16:34

Так все уже там: https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct-GGUF

AndreiKud 12 ноя 2024 в 15:45

Пора дать локальным моделькам ещё один шанс. 2.5 как-то не зашла, может 2.5.1 зайдет

Kenya-West 12 ноя 2024 в 15:50

Я помню, как раньше надо было иметь кластер видеокарт для работы моделей машинного обучения. Как сейчас с этим обстоят дела?

Ты просто залил эту модель в ComfyUI и вперёд, она просто работает? Ноутбучная 4070 потянет?

AndreiKud 12 ноя 2024 в 16:07

Можно поиграться с квантованием, но дефолтные 7b модельки обычно влазят в 8 gb vram. Так что должно хватить.

ShadF0x 12 ноя 2024 в 16:37

ComfyUI тут не при чём, гуглите TabbyAPI, KoboldCCP и oobabooga.

ShadF0x 12 ноя 2024 в 18:27

Отредактировать комментарий уже не могу, поэтому раскрою мысль отдельно.

llamacpp - позволяет запускать GGUF-модели. Основной плюс - умеет делить модель между VRAM и RAM, и запускать модели целиком из RAM, хоть и с огромным ударом по скорости. На маках М-серии удар не такой сильный, там вполне можно использовать для запуска +70B.

KoboldCPP - питоний гуй поверх llamacpp, в основном удобен именно тем, что настройки можно нащёлкать вместо написания простыней в командной строке. Бонусом интегрирует в себя веб-интерфейс, Whisper STT (преобразование речи в текст) и SD.cpp (переделка StableDiffusion на крестах). Есть форк с интеграцией ROCm для запуска на Radeon.

TabbyAPI - реализация EXL2. Работает быстрее, чем llama, и не тормозит при большом размере контекста. Главный минус - жёстко ограничен размерами VRAM, не умеет отгружать "лишние" части модели в RAM.

vLLM - почти чистый Transformers, умеет загружать "оригинальные" модели. Вроде как умеет отгружать лишнее в RAM, но в целом больше заточен под работу с GPU-фермами. Главный минус - модели на FP16 зело жирные (Llama 3 8B в FP16 весит 16 гигабайт сама по себе, а ведь ещё память под контекст нужна). Есть методы "сжатия" NF4 и bitsandbytes, но они сильно бьют по "умственным" способностям модели. Насколько мне известно, это единственный способ запустить vision-модели не прибегая к костылям с подгрузкой внешнего mmproj.

oobabooga - огромный комбайн из всего и вся, позволяет запускать модели, смешивать их, перетренировывать, писать бенчмарки и ещё по мелочи. Сам по себе модели не запускает, но в комплекте идут несколько разных движков (AWQ, GPTQ, EXL2, Llamacpp и чистый Transformers) и REST API для генерации текста.

ITDiver77 25 ноя 2024 в 20:02

Вопрос, а если на Авито взять пяток 8гиговых 1070/rtx 580, сделать ферму, получится ли через vLLM или иное получить приемлемую производительность? Или 4060ti с оперативкой будет сопоставима по стоимости/цене при отсутствии гемора и кратно меньшим потреблением ээ?

ShadF0x 25 ноя 2024 в 20:35

Про ферму сказать не могу, но при прочих "условно равных", 1070 заметно медленее условной 6900XT.

В LLM многое решает пропускная способность памяти. По карточкам с Techpowerup, у 1070 эта цифра - 256.3 GB/s, у 4060Ti - 288 GB/s, у 6900ХТ - 512 GB/s, у 4090 - 1.01 TB/s.

AndyKy 12 ноя 2024 в 16:51

llama.cpp / ollama, кажется koboldcpp считается проще

alexandr93 12 ноя 2024 в 17:53

Я на стационарном с RTX 3060 запустил через ollama. Работает шустро. Там модель весит 4.7 Гб. И здесь главное, чтобы памяти хватило.

EvilFox 12 ноя 2024 в 16:40

но т.к. есть официальная, то уже и не особенно интересно

Официальная там всё ещё 2.5 и она не даёт такие результаты как я понял, а "2.5.1" была слита случайно по ошибке, коммит там всё ещё можно найти.

AndyKy 12 ноя 2024 в 17:19

Там уже обновленная версия и она должна быть так же хороша, gguf перезалиты несколько часов назад, и большие опенсорсные модели QWEN (которые сравнимы с GPT4o ) тоже. Пост в их блоге: https://qwenlm.github.io/blog/qwen2.5-coder-family/

mimo-prohodil 12 ноя 2024 в 17:45

было бы не плохо если бы сравнивались конкретные языки, а не просто общий бенчмарк

AndyKy 12 ноя 2024 в 17:52

Обычно с этим просто, чем больше кода в интернете, тем лучше работает. Лучше всех Python, потом JS и т.д.

Shannon 13 ноя 2024 в 00:33

было бы не плохо если бы сравнивались конкретные языки, а не просто общий бенчмарк

Вышла Qwen2.5-Coder 32B. Открытая локальная модель для кода конкурирующая с GPT-4o

Сравнение с 48 языками для Coder 32B:

Падение качества от модели к модели с уменьшением размера B:

Попробовать онлайн все версии от 32B до 0.5B: https://huggingface.co/spaces/Qwen/Qwen2.5-Coder-demo

AndyKy 13 ноя 2024 в 12:45

Супер, спасибо! Не встречал этот бенчмарк раньше, очень любопытный https://mceval.github.io/ . Судя по гитхабу ему ему полгода уже, не очень понятно когда именно модели учили, теоретически мог попасть в обучающий датасет, но все равно интересно

goldsteinmoshe 12 ноя 2024 в 17:47

Версии от 7b до 32b вышли

Зарегистрируйтесь на Хабре, чтобы оставить комментарий