child6yo Jul 22 at 16:16

Полноценное RAG-приложение на Go — безумие?

Easy

6 min

6.2K

Go * Artificial Intelligence

From sandbox

+11

Comments 4

Elaugaste Jul 22 at 19:18

Из статьи не понял какой сервис за что отвечает и в чем практическая польза от размазывания такого приложения на отдельные микросервисы.

Хочется сказать что помимо langchaingo есть еще eino. Который как будто бы более серьезный, но с своими нюансами. Также хочется заметить что в этой задаче весьма удобно отделять rag часть в MCP модуль, представляющий из себя отдельный сервис.

Я ваял rag приложение -ассистента для ответов с учетом данных в базе знаний confluence, самое печальное что ембеддинг моделей с большим контекстом, которые могут в русский прям не густо. Да и в целом gguf варианты моделей, у ml энтузиастов как то не особо популярны.

child6yo Jul 22 at 19:35

На самом деле, я ни то чтобы сильно много задумывался о преимуществах разбиения на микросервисы подобных приложений. Но, в целом, по классике можно выделить масштабируемость. Как минимум мы можем развернуть несколько экземпляров генераторов с разными моделями и оркестрировать их через вышележащий сервис. Если проект вырастет - проще будет развивать.

Про eino не слышал, надо будет изучить, спасибо.

Elaugaste Jul 22 at 19:49

Да, тут.. преимущества от масштабирования разбиваются об ollama. Да и если использовать облачные решения, узким местом будет не производительность вашего сервиса, а скорость генерации облака. Собственно по этой причине мне кажется что микросервисы тут являются переусложнением.

Мне eino не особо понравился, просто потому что он куда сложнее налезает на голову. Плюс он использует нативный tool call от ollama, а не парсит ответы модели как это делает langchaingo. Это еще больше уменьшает пул моделей которые можно использовать

NetBUG Aug 6 at 10:47

Видеокарта всегда будет узким местом. На больших картах время генерации меньше, производительность меньше, но это всё равно блокирующий (и весьма долгий относительно сколь-либо вменяемого препроцессинга) этап.
Для задач индексирования применяется батчинг и очередь с приоритетами, для инференса без задержек – кластер избыточной мощности.