Как стать автором
Обновить

Комментарии 9

Да, набил туда it документации - очень помогает, только вместо redis - mongo,а модель qwen3-8b. Раньше была qwen 2.5-7b

Локально развернули?

Спасибо за то, что поделились своими интересными результатами! Интересно, какой формат исходных данных: pdf, txt или другой; какова степень сложности исходных данных: главы, статьи, пункты, подпункты; предобработку исходных данных делали?

да, предобработка была. сперва спарсил в md, потом прогонял все файлы через ту же модель, чтобы она повыкидывала всякие хедеры/футеры и оставила только целевой контент, потом загнал в граф.
для теста попробовал загнать в граф те же документы без изменений - lightrag посчитал их обработанными, но если добавить в документ пробел - начинает работу

"но если добавить в документ пробел - начинает работу" - поясните, не понял

LightRAG поддерживает загрузку текстовых данных в следующих форматах: TXT, MD, DOCX, PDF, PPTX, RTF, ODT, EPUB, HTML, HTM, TEX, JSON, XML, YAML, YML, CSV и др. Степень сложности тестовых документов - средняя на уровне статей и пунктов. Предобработку документов не проводили, тк в исследовательских целях интересно было провести сравнительный анализ на исходных документах. По опыту разработки RAG можем отметить, что разделение текста на чанки с учетом структуры (статья, пункт, абзац) оказывает существенное влияние на повышение качества ответов.

Все хорошо, только создание и поддержание графовой базы знаний - это боль в реальном бизнесе. Как связать разные тексты со смешанными темами в граф ? У вас мало описано как она создаётся и поддерживается, какими методами. Можно уточнить что нового тут?

Одна из задач статьи — показать, что среди открытых библиотек есть не только GraphRAG, но и другие интересные и перспективные варианты, развивающие данный подход с учётом его ограничений и проблем.
В описании архитектуры LightRAG отражены новые идеи создания и инкрементного обновления графа при добавлении новых документов (тематик). Связывание различных тематик (доменных областей) в один граф возможно, при этом соединение между темами может осуществляться через общие узлы (например, «прибор X» в медицинских документах и ГОСТах). Однако, по нашему мнению, по возможности лучше разделять доменные области на отдельные графы и выполнять маршрутизацию запросов.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации