Комментарии 6
Спасибо, что поделились опытом. Было интересно. еще интересно узнать, по какому принципу разбиваете документ на чанки перед енкодингом. От этого многое зависит в поиске
Да, мне как начинающему тоже интересно знать методики разбиения текста. Размышлял о семантическом разборе. Скажем, каждому предложению — свой эмбеддинг. Плюс, можно добавить общие эмбеддинги для каждого абзаца, наверное.
Семантическое разбиение пробовали, ощутимого прироста не дало, поэтому просто делим на фиксированное количество токенов (в одной из задач 512). Пробовали также разбивать по md-разметке, но тоже особо ничего хорошего не дало. Возможно, нам просто пока не попадались данные, на которых бы другое разбиение (не по токенам) работало бы лучше.
И в каком виде документ кладете в базу? Кроме текста и его вектора что-то дополнительное пишете?
Интеграция LLM в корпоративные чат-боты: RAG-подход и эксперименты