Как стать автором
Обновить

Комментарии 18

Пора дать локальным моделькам ещё один шанс. 2.5 как-то не зашла, может 2.5.1 зайдет

Я помню, как раньше надо было иметь кластер видеокарт для работы моделей машинного обучения. Как сейчас с этим обстоят дела?

Ты просто залил эту модель в ComfyUI и вперёд, она просто работает? Ноутбучная 4070 потянет?

Можно поиграться с квантованием, но дефолтные 7b модельки обычно влазят в 8 gb vram. Так что должно хватить.

ComfyUI тут не при чём, гуглите TabbyAPI, KoboldCCP и oobabooga.

Отредактировать комментарий уже не могу, поэтому раскрою мысль отдельно.

llamacpp - позволяет запускать GGUF-модели. Основной плюс - умеет делить модель между VRAM и RAM, и запускать модели целиком из RAM, хоть и с огромным ударом по скорости. На маках М-серии удар не такой сильный, там вполне можно использовать для запуска +70B.

KoboldCPP - питоний гуй поверх llamacpp, в основном удобен именно тем, что настройки можно нащёлкать вместо написания простыней в командной строке. Бонусом интегрирует в себя веб-интерфейс, Whisper STT (преобразование речи в текст) и SD.cpp (переделка StableDiffusion на крестах). Есть форк с интеграцией ROCm для запуска на Radeon.

TabbyAPI - реализация EXL2. Работает быстрее, чем llama, и не тормозит при большом размере контекста. Главный минус - жёстко ограничен размерами VRAM, не умеет отгружать "лишние" части модели в RAM.

vLLM - почти чистый Transformers, умеет загружать "оригинальные" модели. Вроде как умеет отгружать лишнее в RAM, но в целом больше заточен под работу с GPU-фермами. Главный минус - модели на FP16 зело жирные (Llama 3 8B в FP16 весит 16 гигабайт сама по себе, а ведь ещё память под контекст нужна). Есть методы "сжатия" NF4 и bitsandbytes, но они сильно бьют по "умственным" способностям модели. Насколько мне известно, это единственный способ запустить vision-модели не прибегая к костылям с подгрузкой внешнего mmproj.

oobabooga - огромный комбайн из всего и вся, позволяет запускать модели, смешивать их, перетренировывать, писать бенчмарки и ещё по мелочи. Сам по себе модели не запускает, но в комплекте идут несколько разных движков (AWQ, GPTQ, EXL2, Llamacpp и чистый Transformers) и REST API для генерации текста.

Вопрос, а если на Авито взять пяток 8гиговых 1070/rtx 580, сделать ферму, получится ли через vLLM или иное получить приемлемую производительность? Или 4060ti с оперативкой будет сопоставима по стоимости/цене при отсутствии гемора и кратно меньшим потреблением ээ?

Про ферму сказать не могу, но при прочих "условно равных", 1070 заметно медленее условной 6900XT.

В LLM многое решает пропускная способность памяти. По карточкам с Techpowerup, у 1070 эта цифра - 256.3 GB/s, у 4060Ti - 288 GB/s, у 6900ХТ - 512 GB/s, у 4090 - 1.01 TB/s.

llama.cpp / ollama, кажется koboldcpp считается проще

Я на стационарном с RTX 3060 запустил через ollama. Работает шустро. Там модель весит 4.7 Гб. И здесь главное, чтобы памяти хватило.

но т.к. есть официальная, то уже и не особенно интересно

Официальная там всё ещё 2.5 и она не даёт такие результаты как я понял, а "2.5.1" была слита случайно по ошибке, коммит там всё ещё можно найти.

Там уже обновленная версия и она должна быть так же хороша, gguf перезалиты несколько часов назад, и большие опенсорсные модели QWEN (которые сравнимы с GPT4o ) тоже. Пост в их блоге: https://qwenlm.github.io/blog/qwen2.5-coder-family/

было бы не плохо если бы сравнивались конкретные языки, а не просто общий бенчмарк

Обычно с этим просто, чем больше кода в интернете, тем лучше работает. Лучше всех Python, потом JS и т.д.

было бы не плохо если бы сравнивались конкретные языки, а не просто общий бенчмарк

Вышла Qwen2.5-Coder 32B. Открытая локальная модель для кода конкурирующая с GPT-4o

Сравнение с 48 языками для Coder 32B:

Падение качества от модели к модели с уменьшением размера B:

Попробовать онлайн все версии от 32B до 0.5B: https://huggingface.co/spaces/Qwen/Qwen2.5-Coder-demo

Супер, спасибо! Не встречал этот бенчмарк раньше, очень любопытный https://mceval.github.io/ . Судя по гитхабу ему ему полгода уже, не очень понятно когда именно модели учили, теоретически мог попасть в обучающий датасет, но все равно интересно

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости