Обновить

Комментарии 5

Там же у вас питон и электрон. Почему на Linux/MacOS не завезли? ;)

Тоже задумался, почему только под венду.

Хороший поинт.

На домашнем ПК стоит Windows, было проще под него адаптировать и тестировать. В перспективе был расчет по необходимости делать плавную адаптацию на другие системы, т.к. архитектура позволяет.

Также исходил из того, что у большинства пользователей в РФ основная система виндовс (личное суждение), поэтому лучше сразу целится в него.

Вы используете BGE-M3 с гибридным поиском (dense + sparse) и слиянием через RRF для локального RAG. Это элегантное решение для офлайн-сценариев, но поднимает вопрос калибровки: как вы валидируете, что веса методов в RRF (или значение k=60) не «заглушают» редкий, но критичный факт, который попал в топ только по sparse-потоку (например, специфичный термин или аббревиатура), но провалился по dense-семантике?

Конкретнее: есть ли у вас размеченный датасет запросов для оценки precision@5 или nDCG отдельно для dense-only, sparse-only и RRF-фьюжна? И как вы детектируете деградацию качества при обновлении модели BGE-M3 или изменении конфигурации квантования (INT8 → INT4), если бенчмаркинг должен оставаться полностью локальным и без облачных зависимостей?

На текущем этапе - никак. Пока что нет системы оценки качества и релевантности ответа.

Предполагается, что в целом что поиск будет возвращать релевантные ответы, но даже если будет лишнее, то для современных моделей это не должно быть проблемой и не должно приводить к ошибочным выводам.

Пока лежу в сторону создания метрик для оценки ответов моделей и качества контекста, поэтому пока что не могу ответить на ваши вопросы, увы.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации