sonymanetov 22 янв в 17:49

LangChain vs LlamaIndex: проектируем RAG и разбираемся, что выбрать для вашего проекта

Простой

14 мин

Блог компании RaftPython*Искусственный интеллект

+27

Комментарии 14

Squirrelfm 22 янв в 17:57

Насколько Langchain подходит для написания агентских систем по сравнению со специализированными фреймворками как Swarw, CrewAI?

sonymanetov 23 янв в 10:35

Думаю, что всё-таки на выбор инструмента сильно зависит от деталей проекта. CrewAI можно довольно эффективно заиспользовать там, где основной фокус на агентах и их взаимодействии между собой. Но если вокруг взаимодействия агентов есть еще какие-то функциональные модули, если система гибридная, то, возможно, стоит взглянуть в сторону LangChain. В ряде кейсов того функционала, который предоставляет LangChain для работы с агентами, может быть вполне достаточно

А еще фреймворки можно использовать совместно! Допустим, на CrewAI реализовать всё, что связано на прямую с агентами, а на LangChain всю прочую логику

nikolay_karelin 22 янв в 21:34

В LangChain дебаг и даже простое логирование (без LangSmith) - просто кошмар!

И при более-менее сложной логике он превращается во что-то ужесное

sonymanetov 23 янв в 10:40

А поделитесь, какими инструментами вы предпочитаете пользоваться, когда имеет место сложная логика? Очень любопытно!

nikolay_karelin 23 янв в 10:52

По опыту пары проектов: самому ИМХО часто написать будет проще и быстрее, чем продираться сквозь абстракции

Кстати еще одна история про LangChain: я попробовал использовать их функционал для парсинга сайтов и подготовки к индексированию. К сожалению, сразу вылезло несколько очень странных решений:

1) Парсить и индексировать просто только полностью статические сайты (там, где хватает модуля requests)

2) Есть отдельный (community) код для selenium, но он не интегрирован с основной логикой

3) Подправить под себя логику разделения странички на части крайне сложно (API нету, надо переписывать метод класса)

nikolay_karelin 23 янв в 10:54

В целом статья очень годная, спасибо!

С моей стороны была не претензия к вам, а скорее боль вылезла ;)

sonymanetov 23 янв в 10:57

Спасибо, что присоединились к обсуждению! Делиться болями и средствами их устранения -- очень ценно)

Blumfontein 22 янв в 22:38

text_data = [ "Котики — любимые животные Сони.", "Котики не любят цитрусовые.", "Котики ласковые, усатые и пугливые."]

Вот только если документов у нас станет не 3, а 3 000 000, котики перестанут находиться по вопросу "что ты знаешь о котиках"

Dmitry2019 23 янв в 02:26

И какое решение есть для 3,000,000?

SnakeSolid 23 янв в 08:27

Настолько я знаю GraphRAG умеет в кластеризацию документов. Через глобальный поиск находит котиков, потом только по ним ищет.

Blumfontein 24 янв в 10:04

И какое решение есть для 3,000,000?

Иметь в базе вопрос "что ты знаешь о котиках" или его близкое векторное представление, линкованное на нужный материал :)

Например, генерить все вопросы с помощью LLM на доки

molnij 23 янв в 06:39

Подскажите, наверняка же кто-то уже копал.. Можно ли такое же, но без питона? C[++]/C#/Java/? Потому что, как только возникает вопрос переносимости и предсказуемой разворачиваемости, с питоном хочется вспоминать мемы с пробиванием головы насквозь ладонью (про pyinstaller и его братьев знаю).

Со стороны модельной части восхитительная llamacpp вопрос закрыла уже давно, но вот именно RAG...

sonymanetov 23 янв в 10:48

Конкретно для LangChain и LlamaIndex есть возможность использовать js/ts. А что касается языков, которые вы упомянули, можно посмотреть на Spring AI для Java :)

Dmitry2019 24 янв в 05:51

Мы пользуемся langchain4j

Зарегистрируйтесь на Хабре, чтобы оставить комментарий