Команда небольшая - фактически два человека. Руководитель проекта (он как раз описывал свою роль в первой части статьи) и я, на мне была вся кодовая часть решения.
Первый коммит появился примерно полгода назад. Разработка шла без выделенного фуллтайма - в основном в свободное от основной работы время.
В тестировании также участвовали коллеги из команды технической поддержки - подключались все желающие и давали обратную связь.
Предварительно, для оценки качества мы остановились на двух основных метриках:
Качество ответов - измеряем семантическое сходство с эталонным ответом: Similarity (косинусная схожесть) - сравниваем эмбеддинги полученного и эталонного ответов. Значение от 0 до 1, где 1 - полное совпадение по смыслу.
Качество retrieval - оцениваем точность поиска документов: Precision@5 - доля релевантных документов среди первых 5 результатов поиска. Показывает, насколько точно система находит нужные документы для ответа.
Команда небольшая - фактически два человека.
Руководитель проекта (он как раз описывал свою роль в первой части статьи) и я, на мне была вся кодовая часть решения.
Первый коммит появился примерно полгода назад. Разработка шла без выделенного фуллтайма - в основном в свободное от основной работы время.
В тестировании также участвовали коллеги из команды технической поддержки - подключались все желающие и давали обратную связь.
Предварительно, для оценки качества мы остановились на двух основных метриках:
Качество ответов - измеряем семантическое сходство с эталонным ответом: Similarity (косинусная схожесть) - сравниваем эмбеддинги полученного и эталонного ответов. Значение от 0 до 1, где 1 - полное совпадение по смыслу.
Качество retrieval - оцениваем точность поиска документов: Precision@5 - доля релевантных документов среди первых 5 результатов поиска. Показывает, насколько точно система находит нужные документы для ответа.