Информация
- В рейтинге
- 1 615-й
- Откуда
- Москва, Москва и Московская обл., Россия
- Дата рождения
- Зарегистрирован
- Активность
Специализация
Бэкенд разработчик, ML разработчик
Стажёр
C++
Python
ООП
Git
SQL
PostgreSQL
Docker
Linux
Английский язык
Алгоритмы и структуры данных
Да, вы правы. ast обычные
#-комментарии не видит, через него я вытаскивал именно docstring’и и сигнатуры. # - комментарии отдельно собирались построчным сканером по регуляркам( конкретно по этой PY_COMMENT_RE = re.compile(r"^\s*#\s?(.*)$") ). Для прототипа этого хватило; если делать промышленнее, я бы смотрел в сторонуtokenizeилиLibCST.Да, такая проблема действительно есть, но в нормальном RAG как раз не предполагается, что мы скармливаем модели всю документацию целиком. В моём случае я не передаю в LLM всё содержимое
доков,ранбукови кода. В начале сервис ищет релевантные чанки через BM25, после этого собирается ограниченный контекст из найденных фрагментов. Поэтому даже если сама база знаний большая, в контекст модели попадает только небольшая выборка наиболее релевантных чанков.Но проблема может возникнуть в том, что количество релевантных чанков, которые могут дать дополнительную полезную информацию, может быть больше, чем мы можем себе позволить при выборе top_k чанков. В таком случае другой возможности, кроме как менять модель на более мощную, не вижу.