Обновить

Комментарии 8

Проще говоря, модель:

сначала ищет релевантную информацию;

Вот это ещё одна типичная ошибка при построении RAG систем. Объяснять это так менеджерам и бизнесу особенно. Что модель хоть что то делает в этом процессе, кроме как ртом своим пережёвывает информацию.

Придумали кучу кастылей вокруг текстового генератора и понесёсся словестный понос со всех щелей уже который год одно и тоже.

Ничего не умеет делать llm модель сама.

Соглашусь с замечанием. В данной фразе имелась вся система, я писал это для упрощения и обобщения, но по факту написал в данном месте некорректно. Спасибо за замечание.

Так ещё почему то считают что ей должны все верить.

Спасибо за статью: хорошая подача - все структурировано, понятно и логично изложено! Очень надеюсь, что будет продолжение!

Спасибо за лестный отзыв, да, продолжение будет!

Без убедительного обоснования и детального пояснения своего ответа (решения), со ссылками на использованные источники знаний, системы ИИ НЕ будут внушает доверия и, тем более, применяться в прикладных областях где цена ошибки достаточно велика.

Хорошая статья, посмотрел гитхаб - проект заслуживает внимания.

Вопрос, насколько трудозатратен процесс разбиения на чанки. Я правильно, понимаю, что этот процесс в основном ручной? Или существуют методы автоматизации с учётом конфиденциальности?

Спасибо за высокую оценку.

Процесс разбиения на чанки автоматизирован и выполняется обычно одним из двух способов:

1. Либо разбиение на чанки одинаковой длины с overlap (об этом написано в статье, главное подобрать наиболее адекватные размеры чанков под ваши данные)

2. Либо разбиение семантически, тогда у вас должна быть настройка вашего чанкинга (то каким образом он будет производить разбиение). Например по двойному слеш n, тогда будет разбиение по абзацам. Либо по специальному символу, который вы внедрите в свои данные. Способов много.

В моем проекте сейчас реализован только 1 способ, но в ближайшее время добавится и второй. Так что следите за проектом🙂

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации