да, можно взять за базу опенсорс модель, ту же ламу, и сделать дообучение, например нагенерировав с помощью большей (ChatGPT) модели пар-вопрос-ответ по вашей документациии. Если цель - только отвечать по дукументации, вам скорее всего не потребуется даже большая модель
человека можно найти и принять меры, у него есть мотивация действовать по инструкциям. хотя это вопрос философский, в конечном итоге разницы мало и все упирается в организации процесса и контроля качества
Примером может быть например бот который консультирует по ТК РФ, или налоговому кодексу. В этих документах есть структура, и многие подпункты не имеют смысла вне главных пунктов закона,и здесь важно учитывать структуру при ответах
Ажур private open AI (Azure AI Services)? вообще куча корпораций с вами в США не согласна, это какой то рудимент российского корпоративного мышления что все должно стоять непременно у нас в подвале
это скорее шутка, заменить к сожалению нечем, нужно разработать новый формат данных, с учётом того что его будут не только человек смотреть но и парсить можно было и который не тянет кучу легаси х@иты как PDF
отчасти. РАГ используется как стандарт во всех подобных случаях в компаниях. до-обучение имеет смысл в отдельных задачах, но не заменяет РАГ, тк без него не возможно реализовать контроль доступа или ролевую модель, например.
да, можно взять за базу опенсорс модель, ту же ламу, и сделать дообучение, например нагенерировав с помощью большей (ChatGPT) модели пар-вопрос-ответ по вашей документациии. Если цель - только отвечать по дукументации, вам скорее всего не потребуется даже большая модель
человека можно найти и принять меры, у него есть мотивация действовать по инструкциям. хотя это вопрос философский, в конечном итоге разницы мало и все упирается в организации процесса и контроля качества
🤔
Действительно, это помогает.
Действительно, это хорошее замечание, если исходные данные не на английском. Поправлю
Примером может быть например бот который консультирует по ТК РФ, или налоговому кодексу. В этих документах есть структура, и многие подпункты не имеют смысла вне главных пунктов закона,и здесь важно учитывать структуру при ответах
есть, тут больше были общие размышления, я планирую написать более техническую статью с разбором
Это сделать можно, мы неоднократно делали похожие системы. Пункт 2 обычно решается индексированием сайта в векторную базу
ответ похож на генерацию слабенькой LLM
хорошо, переформулирую. какого типа компании вам это тз составляют и что там сказано?
а кем они вам были сформированы?
Ажур private open AI (Azure AI Services)? вообще куча корпораций с вами в США не согласна, это какой то рудимент российского корпоративного мышления что все должно стоять непременно у нас в подвале
это скорее шутка, заменить к сожалению нечем, нужно разработать новый формат данных, с учётом того что его будут не только человек смотреть но и парсить можно было и который не тянет кучу легаси х@иты как PDF
вполне возможно например использовать html5
я видел, и это не редкость. несколько примеров описал тут https://habr.com/ru/companies/raft/articles/791034/
в целом, если отбросить стоимость такого препроцессинга, это хорошая идея
а почему вы непременно хотите развернуть РАГ локально?
и что же вам мешало?
а что по Вашему тут не так?
позволяю
можно сделать vanilla rag на ленгчейн. это делается 30 стоками кода. если код писать не хочется - есть no code, low code rag платформы
отчасти. РАГ используется как стандарт во всех подобных случаях в компаниях. до-обучение имеет смысл в отдельных задачах, но не заменяет РАГ, тк без него не возможно реализовать контроль доступа или ролевую модель, например.