Как стать автором
Обновить

Русский LLM-помощник (saiga) с кэшем, используя RAG (Retrieval-Augmented Generation)

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров17K
Всего голосов 7: ↑7 и ↓0+7
Комментарии11

Комментарии 11

Ответ зависит еще от seed'a и модель могла бы правильно ответит, но не в этот раз.

Да, есть такое.

>> При наличии достаточно мощной GPU

насколько мощной?

Для загрузки модели в формате bfloat16 чуть меньше 14gb. Но можно квантовать с относительно небольшой потерей качества и уменьшить в два(int8) или четыре(4bit) раза.

Замечу, что модель (как и любые другие инструктивные модели) критична к формату промпта.
В этом случае он должен быть примерно таким:

<s>system
Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.</s>
<s>user
Текст: {context}
Вопрос: {question}</s>
<s>bot
Вот ответ на ваш вопрос длиной не более 10 слов:

Сегодня весь день пытаюсь в Spaces потестить:
"Runtime error

Scheduling failure: not enough hardware capacity"

Хм... Довольно быстрый инференс даже на CPU получается.

Это аналог f-строки, только с возможностью передавать строку, как зависимую переменную, с последующей передачей ей аргумента.

Не очень понятно зачем для этого использовать langchain.PromptTemplate когда в стандартные питоновские строки умеют то же самое:

my_string = "{some_arg} some text {another_arg}"
print(my_string.format(some_arg="I'm an arg", another_arg="Hi"))

На самом деле неверно написано, что это просто аналог f-строки. Это не аналог. Данная функциональность введена для того, чтобы загружать промпты в цепочку модуля langchain (chain). По сути специнструмент для работы с langchain

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории