Pull to refresh
4K+
0
Кисиев Александр@chisi

User

2
Rating
1
Subscribers
Send message

Да, вы правы. ast обычные #-комментарии не видит, через него я вытаскивал именно docstring’и и сигнатуры. # - комментарии отдельно собирались построчным сканером по регуляркам( конкретно по этой PY_COMMENT_RE = re.compile(r"^\s*#\s?(.*)$") ). Для прототипа этого хватило; если делать промышленнее, я бы смотрел в сторону tokenize или LibCST.

Да, такая проблема действительно есть, но в нормальном RAG как раз не предполагается, что мы скармливаем модели всю документацию целиком. В моём случае я не передаю в LLM всё содержимое доков, ранбукови кода. В начале сервис ищет релевантные чанки через BM25, после этого собирается ограниченный контекст из найденных фрагментов. Поэтому даже если сама база знаний большая, в контекст модели попадает только небольшая выборка наиболее релевантных чанков. 
Но проблема может возникнуть в том, что количество релевантных чанков, которые могут дать дополнительную полезную информацию, может быть больше, чем мы можем себе позволить при выборе top_k чанков. В таком случае другой возможности, кроме как менять модель на более мощную, не вижу.

Information

Rating
1,974-th
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity

Specialization

Бэкенд разработчик, ML разработчик
Стажёр
C++
Python
ООП
Git
SQL
PostgreSQL
Docker
Linux
Английский язык
Алгоритмы и структуры данных