Рассматривали ли вы OpenWebUI в качестве инструмента для данной задачи? Сам делаю нечто похожее с его помощью, но пока не добился достаточного качества результатов на 12Гб GPU
Если уместиться в видеопамять (не уверен на счёт возможностей М3, но на 16 ОЗУ в теории будет грустно), то даже не самая мощная видеокарта способна выдать адекватную скорость. Но облако имеет слишком огромное преимущество по размеру окна контекста и кол-ву параметров самой модели (671B у DeepSeek R1 против 32B/70B моделей на 3090 и 7/14B на 3060-12) при чаще всего меньшей стоимости
Сам сейчас занимаюсь похожей задачей, используя OpenWebUI + Ollama. В роли генератора использую deepseek-R1 7B Q4 с сайта Ollama, Embed-модель bge-m3. Запускаю всё это на RTX 3060 12Гб. Надо будет попробовать повторить ваш алгоритм действий
"Туттурукнет - мало не покажется!" - это отсылка на Врата Штейна? Если да - то, получается, отсылка стала пророчеством о дальнейшем применении :D
Спасибо за статью! Сам мало в этом понимаю, но почитать всегда интересно
Рассматривали ли вы OpenWebUI в качестве инструмента для данной задачи? Сам делаю нечто похожее с его помощью, но пока не добился достаточного качества результатов на 12Гб GPU
Если уместиться в видеопамять (не уверен на счёт возможностей М3, но на 16 ОЗУ в теории будет грустно), то даже не самая мощная видеокарта способна выдать адекватную скорость. Но облако имеет слишком огромное преимущество по размеру окна контекста и кол-ву параметров самой модели (671B у DeepSeek R1 против 32B/70B моделей на 3090 и 7/14B на 3060-12) при чаще всего меньшей стоимости
Очень полезная статья!
Сам сейчас занимаюсь похожей задачей, используя OpenWebUI + Ollama. В роли генератора использую deepseek-R1 7B Q4 с сайта Ollama, Embed-модель bge-m3. Запускаю всё это на RTX 3060 12Гб. Надо будет попробовать повторить ваш алгоритм действий