Комментарии 2
Спасибо большое что поделились опытом!
Кажется, что самый большой челенж во всей этой задаче - понять что вообще такое "похожие книги". По жанру? По атмосфере? По стилю? И ответ на этот вопрос влияет: а на что именно должен обращать внимание LLM-суммаризатор, мб не только на контент. А в случае с данными от правообладателей, возникает вопрос насколько аннотации консистентны друг с другом и можно ли их корректно сравнивать - разные авторы аннотаций/содержаний могут делать фокус на разных вещах. Запрос аннотаций от GPT4 тоже зависит от промпта и расставленных в нем акцентов.
Поэтому возникло сразу несколько вопросов:
У вас есть 3 источника данных для эмбеддингов (аннотация от автора, саммари от LLM, аннотация от GPT4). Какой из них даёт более качественный результат при использовании? Если оценивали раздельно, или есть возможность вытащить эти данные из общей оценки.
Я правильно понял, что эвалюация проводилась через месяц? То есть, выбор моделей, параметров, промптов осуществлялся скорее интуитивно? Или же был размеченный датасет, на котором вы ставили эксперименты, подбирая оптимальные переменные?
Как вы выбрали именно эти модели LLM (Qwen2.5) и эмбеддингов?
@DomanОтвечаю по пунктам:
1) здесь мы проверяли посредством мнения экспертов, а так же тестировали результаты на небольшом размеченном датасете (те смотрели какой подход позволяет отранжировать похожие книги лучшим образом). В будущем каждый подход формирования эмбеддинга можно тестировать на А/B, что даст более объективную картину.
2) как писал выше мы использовали экспертную оценку/разметку для формировать суждения о качестве решения на оффлайн данных. На нем пытались сделать лучший выбор. Финальная оценка после запуска, была сделана на бизнес метриках через месяц с момента запуска.
3) LLM выбирали по параметрам: лицензия, размер промта, качество. Качество опять же сравнивали на небольшом размеченном датасете. После ряда экспериментов победил Qwen, хотя изначально думали использовать Mistral
Опыт Звука: как реализовать рекомендательную систему аудиокниг с использованием больших языковых моделей (LLM)