Pull to refresh

Comments 3

Как красиво все пишут..

Ну сделал я такое для себя. где то 2000 страниц confluence и pdf доков на 2 Гб.
Первый этап - поиск контекстный и поиск по точному совпадению - все OK. Выдает нужные документы и скриншоты страниц где есть найденные чанки.
А вот подставлять найденное в чат LLM особого смысла нет. результат слишком не предсказуем. То фигня, то более менее релевантный резюм по найденному. Причем фигня чаще.

А теоретики "а это у тебя промп не правильный, перепиши". А те, кто фактически пробовал как то энтузиазм теряют и заминают эту тему.
Хотя с нынешней тенденцией (на уровне Грефа и пр.) лучше то же изображать энтузиазм и говорить что "да вообще.. все время ИИ пользую и производительность выросла на 150%".

Согласен, статья как будто написана ChatGPT. Ничего конкретного, только базовые вещи. А проблемы как раз кроются в деталях.

Начиная с того что: Чем парсить и OCRить документы и pdf. Как разбивать на чанки и как доставать семантические связи. Нужны ли графы. Чем делать эмбеддинги, как оптимизировать их размер и где хранить для быстрого поиска. Как и чем ранжировать чанки. В каком формате отдавать их ллм. Какой длинны отдавать чтобы ллм не путалась в большом количестве информации. И какой промпт написать чтобы не галюцинировала и ответы были полезными. (Тут в промпте много мелких нюансов). И какой ответ ожидает юзер короткий и быстрый или длинный и подробный, это тоже надо в промпте для ллм прописать.

Посмотрел что написал. Получился прям промпт для ChatGPT для новой статьи.)

Буквально вчера такое выспрашивал у qwen. Все довольно подробно описала, с примерами для моего текста, предложила все автоматизировать для 1000 книг ).

А от статьи такой толку 0.

Sign up to leave a comment.

Articles