Комментарии 5
Там же у вас питон и электрон. Почему на Linux/MacOS не завезли? ;)
Тоже задумался, почему только под венду.
Хороший поинт.
На домашнем ПК стоит Windows, было проще под него адаптировать и тестировать. В перспективе был расчет по необходимости делать плавную адаптацию на другие системы, т.к. архитектура позволяет.
Также исходил из того, что у большинства пользователей в РФ основная система виндовс (личное суждение), поэтому лучше сразу целится в него.
Вы используете BGE-M3 с гибридным поиском (dense + sparse) и слиянием через RRF для локального RAG. Это элегантное решение для офлайн-сценариев, но поднимает вопрос калибровки: как вы валидируете, что веса методов в RRF (или значение k=60) не «заглушают» редкий, но критичный факт, который попал в топ только по sparse-потоку (например, специфичный термин или аббревиатура), но провалился по dense-семантике?
Конкретнее: есть ли у вас размеченный датасет запросов для оценки precision@5 или nDCG отдельно для dense-only, sparse-only и RRF-фьюжна? И как вы детектируете деградацию качества при обновлении модели BGE-M3 или изменении конфигурации квантования (INT8 → INT4), если бенчмаркинг должен оставаться полностью локальным и без облачных зависимостей?
На текущем этапе - никак. Пока что нет системы оценки качества и релевантности ответа.
Предполагается, что в целом что поиск будет возвращать релевантные ответы, но даже если будет лишнее, то для современных моделей это не должно быть проблемой и не должно приводить к ошибочным выводам.
Пока лежу в сторону создания метрик для оценки ответов моделей и качества контекста, поэтому пока что не могу ответить на ваши вопросы, увы.

Coreness Flow: локальный AI-агент без облака и без лишнего кода