Обновить
4K+
0
Кисиев Александр@chisi

Пользователь

2
Рейтинг
1
Подписчики
Отправить сообщение

Да, вы правы. ast обычные #-комментарии не видит, через него я вытаскивал именно docstring’и и сигнатуры. # - комментарии отдельно собирались построчным сканером по регуляркам( конкретно по этой PY_COMMENT_RE = re.compile(r"^\s*#\s?(.*)$") ). Для прототипа этого хватило; если делать промышленнее, я бы смотрел в сторону tokenize или LibCST.

Да, такая проблема действительно есть, но в нормальном RAG как раз не предполагается, что мы скармливаем модели всю документацию целиком. В моём случае я не передаю в LLM всё содержимое доков, ранбукови кода. В начале сервис ищет релевантные чанки через BM25, после этого собирается ограниченный контекст из найденных фрагментов. Поэтому даже если сама база знаний большая, в контекст модели попадает только небольшая выборка наиболее релевантных чанков. 
Но проблема может возникнуть в том, что количество релевантных чанков, которые могут дать дополнительную полезную информацию, может быть больше, чем мы можем себе позволить при выборе top_k чанков. В таком случае другой возможности, кроме как менять модель на более мощную, не вижу.

Информация

В рейтинге
1 615-й
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Бэкенд разработчик, ML разработчик
Стажёр
C++
Python
ООП
Git
SQL
PostgreSQL
Docker
Linux
Английский язык
Алгоритмы и структуры данных