Насчёт скорости ответов, если ставить через докер, то там есть разные варианты установки. Есть вариант со встроенной ollama и поддержкой GPU. Вы какой вариант использовали ? Там как вариант, можно поставить только UI и подключиться к запущенной на вашем хосте ollama.
В качестве UI есть вот такой Open Web UI https://github.com/open-webui/open-webui
Из фишек которые есть - умеет подгружать в чат файлы или ссылки на статьи, и даже забирать субтитры к видео с Ютуба, и отвечать на вопросы по этим данным. Кажется есть встроенный аналог RAG, но пока не тестировал
Вы можете запустить локальную версию LLM , например через ollama. Langchain умеет с ней работать.
Насчёт скорости ответов, если ставить через докер, то там есть разные варианты установки. Есть вариант со встроенной ollama и поддержкой GPU. Вы какой вариант использовали ? Там как вариант, можно поставить только UI и подключиться к запущенной на вашем хосте ollama.
Тут речь про web ui для ollama
В качестве UI есть вот такой Open Web UI https://github.com/open-webui/open-webui
Из фишек которые есть - умеет подгружать в чат файлы или ссылки на статьи, и даже забирать субтитры к видео с Ютуба, и отвечать на вопросы по этим данным. Кажется есть встроенный аналог RAG, но пока не тестировал
Большое спасибо за статью, отдельное спасибо за дополнительные ссылки.