Обновить

Комментарии 7

Интересная статья, попробую применить на практике, спасибо!

Спасибо! Надеюсь, материал пригодится. Тут всё равно лучше тестировать связку под свои задачи, тем более что модели сейчас меняются очень быстро.

Из маленьких моделек ещё хороша Qwen3 4B 2507, до неё использовал Phi-4 (обе не рассуждающие)

Спасибо за рекомендацию. Qwen3 4B 2507 ещё не пробовал, Phi-4 рассматривал, но надо потестировать. Хочется найти что-то достаточно быстрое, пусть и не самое умное, потому что иногда именно скорость важнее. Думаю, под разные задачи действительно могут лучше подходить разные модели.

Не понял, что за проблема с индексацией заметок. Любую заметку же нужно только при создании/обновлении индексировать.

Т.е. один раз хранилище проиндексировали целиком, а после этого - только изменения. Это даже на CPU быстро происходит.

Да, так и есть, достаточно один раз проиндексировать базу, а дальше обновлять изменения. У меня же проблема была в том, что эмбеддинги через Ollama (пробовал nomic-embed-text, bge-m3 и другие) даже на небольшой базе считались очень долго и иногда зависали, плюс в Copilot возникали ошибки при индексации.

Ollama режет скорость генерации же, по сравнению с llama.cpp примерно в 1.5 раза на одной и той же модели. Это прям непозволительное расточительство в условиях запуска локальной модели.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации