Информация
- В рейтинге
- Не участвует
- Откуда
- Москва и Московская обл., Россия
- Зарегистрирован
- Активность
Специализация
Инженер по компьютерному зрению, Инженер электронных устройств
Средний
От 262 144 ₽
OpenCV
FPGA
UVM
RISC-V
Операционная система реального времени
ООП
Как оказалось... Векторизация-индексация-реранкер-модели-мультимодели -- всё фигня! Главное в доках - это Чанки. От массивных чанкеров к тонким: Langchain(на хайпе)-llamaindex-Tiktokenizer(1love).
Абзацы пункты таблицы все в один target_tokens limit умещаем. overlap 25% от target limit. Но не слишком большой, а то индексикация плохой будет; при малых пунктах/абзацах/таблицах - склеиваем чанки, но чтобы не больше target_tokens по токенам была сумма; слишком большие абзацы ушедшие за лимит аккуратно разделяем между предложениями. слишком маленькый target_tokens - плохой эндпоинт и большой вес модели, лаги, необходимость повторном ретривере.
Еще с таблицами отдельный вопрос. Можно pdftotext/pdfminer.six если сканы хорошие, либо ocrmupdf (нагрузка на vram) А можно CV легенькое как-то подцепить... Это к вопросу о хорошей предобработке даты
LLM в дизайне - ни о чем. И еще долго будет ниочем. Картинки котиков, это не векторные изображения с возможностью правок.
ЗЫ: Люди - сволочи. Человек проект жизни открыл - заминусили. Поделился горем - залайкали
Почитайте про RAG Flow. . RAG на двух видюхах (моделях) самообучающийся.
И ждем новую статью)
Done
А в чем проблема предварительно pdf подготовить в .ps через тот же OCR вне RAG? Вся суть rag, что вся база данных актуальной должна быть., чтобы не глючить, а выдавать четкий конкретный ответ по запросу.
Какая же ты умничка, br0mberg. Очень структурно и красиво оформлено, а самое главное - та тема, которую неохотно все внедряют из-за неведения и слабого представлнния всего потенциала четкой RAG
Единственное, взята в пример конкретная внедренная структура, парсинг и очистка может быть совсем иная. Векторность так же можно через llm обучить , но с геммором. Все зависит от поставленных задач, величины базы данных и железа) Но суть статьи - RAG must have. Куда донатить за статью?)
Что-то я не пойму, а где на изображении планета сама? Вот этот сгусток оранжевый? Планеты-то самой не видать за газо-пылевым облаком