Крутая статья - чётко, по делу и без лишней воды. Особенно понравилось, как подробно расписаны режимы Story / Chat / Adventure. Было бы интересно увидеть сравнение производительности CPU vs GPU: сколько токенов в секунду, как меняется отклик и т.п. Ещё, может, отдельный блок про подключение внешних источников (типа API или RAG с поиском) - чтобы можно было вытащить свежие данные в оффлайн‑режиме.
Крутая статья - чётко, по делу и без лишней воды. Особенно понравилось, как подробно расписаны режимы Story / Chat / Adventure. Было бы интересно увидеть сравнение производительности CPU vs GPU: сколько токенов в секунду, как меняется отклик и т.п. Ещё, может, отдельный блок про подключение внешних источников (типа API или RAG с поиском) - чтобы можно было вытащить свежие данные в оффлайн‑режиме.
В целом - мощный гайд. Спасибо!
Хорошая инструкция, заберу себе тоже в копилку.
Я не знаю кто ты такой, но твои статьи - это старый добрый и ламповый Хабр. Без иронии жду продолжения.
Для продакшена я бы рекомендовал Q6_K или Q8_0: в них баланс точности и скорости обычно оказывается оптимальным.