Mister_Zero26 янв в 09:18

RAG-системы: что это такое, принципы работы, архитектура и ограничения

Простой

10 мин

12K

Искусственный интеллектМашинное обучение *

Из песочницы

+15

Комментарии 8

titan_pc 27 янв в 21:00

Проще говоря, модель:

сначала ищет релевантную информацию;

Вот это ещё одна типичная ошибка при построении RAG систем. Объяснять это так менеджерам и бизнесу особенно. Что модель хоть что то делает в этом процессе, кроме как ртом своим пережёвывает информацию.

Придумали кучу кастылей вокруг текстового генератора и понесёсся словестный понос со всех щелей уже который год одно и тоже.

Ничего не умеет делать llm модель сама.

Mister_Zero 28 янв в 23:20

Соглашусь с замечанием. В данной фразе имелась вся система, я писал это для упрощения и обобщения, но по факту написал в данном месте некорректно. Спасибо за замечание.

IVA48 30 янв в 11:02

Так ещё почему то считают что ей должны все верить.

Mikle888 28 янв в 23:21

Спасибо за статью: хорошая подача - все структурировано, понятно и логично изложено! Очень надеюсь, что будет продолжение!

Mister_Zero 28 янв в 23:21

Спасибо за лестный отзыв, да, продолжение будет!

IVA48 30 янв в 11:14

Без убедительного обоснования и детального пояснения своего ответа (решения), со ссылками на использованные источники знаний, системы ИИ НЕ будут внушает доверия и, тем более, применяться в прикладных областях где цена ошибки достаточно велика.

Esmat 4 фев в 05:21

Хорошая статья, посмотрел гитхаб - проект заслуживает внимания.

Вопрос, насколько трудозатратен процесс разбиения на чанки. Я правильно, понимаю, что этот процесс в основном ручной? Или существуют методы автоматизации с учётом конфиденциальности?

Mister_Zero 6 фев в 11:16

Спасибо за высокую оценку.

Процесс разбиения на чанки автоматизирован и выполняется обычно одним из двух способов:

1. Либо разбиение на чанки одинаковой длины с overlap (об этом написано в статье, главное подобрать наиболее адекватные размеры чанков под ваши данные)

2. Либо разбиение семантически, тогда у вас должна быть настройка вашего чанкинга (то каким образом он будет производить разбиение). Например по двойному слеш n, тогда будет разбиение по абзацам. Либо по специальному символу, который вы внедрите в свои данные. Способов много.

В моем проекте сейчас реализован только 1 способ, но в ближайшее время добавится и второй. Так что следите за проектом🙂

Зарегистрируйтесь на Хабре, чтобы оставить комментарий