Pull to refresh

Comments 15

Однобитное квантование - это скорее какое-то упражнение, чем реальное решение какой-то задачи. Показать, что и так можно и даже немного работает. Качество работы по ответам хорошо видно: чуть лучше, чем случайный набор слов, но не сильно лучше.

Грешу больше на модель, плюс я не очень хорошо умею писать промпты.

Будут еще тесты на новых китайских моделях.

А почему не использовать ollama? Там из коробки много интересных моделей, и руками можно поставить. Я пробовал запускать Deepseek-R1 671B Q1.58 на 128ГБ оперативы. Оно, конечно, работает, но оооочень медленно. Для CPU инферинга отлично подошла deepseek-coder-v2-16b. За счёт MoE работает офигенно быстро, и при этом достаточно качественно.

А почему не использовать ollama?

Докер, да и оно судя по репозиторию каких-то космических размеров.

Врядли заработает в BSD-системе.

You should have at least 8 GB of RAM available to run the 7B models, 16 GB to run the 13B models, and 32 GB to run the 33B models.

Еще не увидел каких-либо требований по GPU, скорее всего для самого интересного все же необходим ускоритель.

при этом достаточно качественно.

 С критериями качества тоже не очень понял - как вообще тестируются LLM?

Докер, да и оно судя по репозиторию каких-то космических размеров.

Там Go и C++. Она на базе той же llama-cpp, думаю собрать её на BSD трудов не составит. А ещё её в качестве бэкэнда поддерживают многие интересные тулы, типа веб-интерфейсов, телеграм ботов, консольных тулов и редакторов кода (emacs, например)

Еще не увидел каких-либо требований по GPU

Такие же, как у llama-cpp. Если модель влазит в память GPU, то будет большое ускорение. Если не влазит - то ускорения практически не будет, хоть и будет часть модели считаться на GPU. Ускоритель желателен, но не необходим, все модели работают на CPU.

С критериями качества тоже не очень понял

Критерии простые - устраивает ответ на вопрос или нет.

По такому критерию большинство платных и рекламируемых нейронок будут некачественные =)

так и напрашивается подзаголовок - "Как пропатчить LLM под FreeBSD" :)

Как то не вяжется

Петон нужен третий и самой последней версии

и

conda create -n bitnet-cpp python=3.9

Видимо инструкция старая, поскольку там же в README:

  • python>=3.9

Я использовал последнюю версию на тот момент, вроде 3.12.

Речь про это? Ну такими темпами они еще лет 10 его доводить будут.

Убрать версию Pytorch - это храбро и уважаемо :)

"Слабоумие и отвага" as-is ;)

А зачем csh и почему /opt ?

И еще из тележного @freebsd_ru передают:
Евгений Гросбейн, [15 Mar 2025 09:42:58]
Совершенно ничего интересного.

Евгений Гросбейн, [15 Mar 2025 09:43:21]
Каменты ниачом.

Евгений Гросбейн, [15 Mar 2025 09:44:27]
Статья - ну да, грабельки расписаны, мог бы и скриптик нарисовать для автоматизации установки, я уж не говорю про полноценный порт.

Евгений Гросбейн, [15 Mar 2025 09:45:21]
Сфига ли он там что-то цензурил, неясно, какие-то локальные хабро-заморочки, наверное.

Sign up to leave a comment.

Articles