akocherovskiy 23 окт 2023 в 10:05

Русский LLM-помощник (saiga) с кэшем, используя RAG (Retrieval-Augmented Generation)

Средний

9 мин

15K

Python*Программирование*Машинное обучение*Искусственный интеллектNatural Language Processing*

Комментарии 11

zartdinov 23 окт 2023 в 10:41

Ответ зависит еще от seed'a и модель могла бы правильно ответит, но не в этот раз.

akocherovskiy 24 окт 2023 в 00:00

Да, есть такое.

dimnsk 23 окт 2023 в 18:32

>> При наличии достаточно мощной GPU

насколько мощной?

akocherovskiy 23 окт 2023 в 23:59

Для загрузки модели в формате bfloat16 чуть меньше 14gb. Но можно квантовать с относительно небольшой потерей качества и уменьшить в два(int8) или четыре(4bit) раза.

Takagi 25 окт 2023 в 00:49

Замечу, что модель (как и любые другие инструктивные модели) критична к формату промпта.
В этом случае он должен быть примерно таким:

<s>system
Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.</s>
<s>user
Текст: {context}
Вопрос: {question}</s>
<s>bot
Вот ответ на ваш вопрос длиной не более 10 слов:

Takagi 25 окт 2023 в 00:50

А, ну и на CPU это тоже вполне работает. См. демо: https://huggingface.co/spaces/IlyaGusev/saiga_mistral_7b_gguf

akocherovskiy 25 окт 2023 в 17:22

Сегодня весь день пытаюсь в Spaces потестить:
"Runtime error

Scheduling failure: not enough hardware capacity"

akocherovskiy 25 окт 2023 в 18:34

Хм... Довольно быстрый инференс даже на CPU получается.

FSlow 25 окт 2023 в 20:30

Это аналог f-строки, только с возможностью передавать строку, как зависимую переменную, с последующей передачей ей аргумента.

Не очень понятно зачем для этого использовать langchain.PromptTemplate когда в стандартные питоновские строки умеют то же самое:

my_string = "{some_arg} some text {another_arg}"
print(my_string.format(some_arg="I'm an arg", another_arg="Hi"))

vova_sam 18 янв в 10:07

На самом деле неверно написано, что это просто аналог f-строки. Это не аналог. Данная функциональность введена для того, чтобы загружать промпты в цепочку модуля langchain (chain). По сути специнструмент для работы с langchain

MaxSergeev 23 янв в 18:06

А насколько большой промпт так можно указывать?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Русский LLM-помощник (saiga) с кэшем, используя RAG (Retrieval-Augmented Generation)

Комментарии 11

Публикации

Истории