Comments / Profile of Squirrelfm / Habr

https://t.me/church_of_ai

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 9 2024 at 11:24

да, можно взять за базу опенсорс модель, ту же ламу, и сделать дообучение, например нагенерировав с помощью большей (ChatGPT) модели пар-вопрос-ответ по вашей документациии. Если цель - только отвечать по дукументации, вам скорее всего не потребуется даже большая модель

Что побуждает LLM врать и как этого избежать в своих продуктах

Squirrelfm Dec 7 2024 at 09:57

человека можно найти и принять меры, у него есть мотивация действовать по инструкциям. хотя это вопрос философский, в конечном итоге разницы мало и все упирается в организации процесса и контроля качества

Что побуждает LLM врать и как этого избежать в своих продуктах

Squirrelfm Dec 6 2024 at 11:50

🤔

Что побуждает LLM врать и как этого избежать в своих продуктах

Squirrelfm Dec 6 2024 at 11:49

Действительно, это помогает.

Что побуждает LLM врать и как этого избежать в своих продуктах

Squirrelfm Dec 6 2024 at 11:44

Действительно, это хорошее замечание, если исходные данные не на английском. Поправлю

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 5 2024 at 14:41

Примером может быть например бот который консультирует по ТК РФ, или налоговому кодексу. В этих документах есть структура, и многие подпункты не имеют смысла вне главных пунктов закона,и здесь важно учитывать структуру при ответах

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 5 2024 at 12:14

есть, тут больше были общие размышления, я планирую написать более техническую статью с разбором

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 5 2024 at 12:13

Это сделать можно, мы неоднократно делали похожие системы. Пункт 2 обычно решается индексированием сайта в векторную базу

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 5 2024 at 09:24

ответ похож на генерацию слабенькой LLM

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 5 2024 at 09:08

хорошо, переформулирую. какого типа компании вам это тз составляют и что там сказано?

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 5 2024 at 08:54

а кем они вам были сформированы?

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 5 2024 at 08:39

Ажур private open AI (Azure AI Services)? вообще куча корпораций с вами в США не согласна, это какой то рудимент российского корпоративного мышления что все должно стоять непременно у нас в подвале

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 5 2024 at 08:36

это скорее шутка, заменить к сожалению нечем, нужно разработать новый формат данных, с учётом того что его будут не только человек смотреть но и парсить можно было и который не тянет кучу легаси х@иты как PDF

вполне возможно например использовать html5

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 5 2024 at 08:30

я видел, и это не редкость. несколько примеров описал тут https://habr.com/ru/companies/raft/articles/791034/

в целом, если отбросить стоимость такого препроцессинга, это хорошая идея

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 5 2024 at 08:24

а почему вы непременно хотите развернуть РАГ локально?

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 5 2024 at 07:49

и что же вам мешало?

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 4 2024 at 20:26

а что по Вашему тут не так?

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 4 2024 at 19:19

позволяю

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 4 2024 at 17:27

можно сделать vanilla rag на ленгчейн. это делается 30 стоками кода. если код писать не хочется - есть no code, low code rag платформы

Построение базы знаний компании и поиска документов на LLM и RAG

Squirrelfm Dec 4 2024 at 17:25

отчасти. РАГ используется как стандарт во всех подобных случаях в компаниях. до-обучение имеет смысл в отдельных задачах, но не заменяет РАГ, тк без него не возможно реализовать контроль доступа или ролевую модель, например.

1 2

4 5 ...

9 10

Information

Specialization