В случае с толковым словарем Ожегова, может быть 2 типа вопросов:
По содержимому или значению найти термин
Найти термин, что он обозначает
Проблема во втором типе вопросов, когда на входе термин. Да, это не работает. И цифры это подтверждают. Теперь цель найти решение, для таких кейсов. А не наступать на мои грабли)
Во второй части попробую использовать гибридный поиск
Тест построен, чтобы показать, что точность в случаях с терминами низкая и найти этому простое решение. Об этом нюансе не пишут. Надеюсь, что кто-то прочитает и будет полезно учитывать этот фактор.
Например, если будет грузить свой какой-то справочник терминов с остальной информацией.
В случае с толковым словарем Ожегова, может быть 2 типа вопросов:
По содержимому или значению найти термин
Найти термин, что он обозначает
Правильно ли я понимаю, что вы предлагаете использовать для первого типа векторную. А для второго типа "запрос к словарю" - другую БД? Дупликация данных? Доп. ресурсы? Как отделять первый тип от второго? Классификация?
В таком случае, это уже не похоже на "по-быстрому", а задача как раз в этом. Минимальные усилия и максимальный результат)
Именно поэтому обычный чат бот, типа того же GPT, не справится с юридическими и правовыми вопросами. В этом случае нужна языковая модель, обученная на конкретных законах.
Что в искусственный интеллект вложишь, то из него и получишь. Ведь не обязательно брать в расчет только прецеденты. В правовой системе можно ориентироваться на законы, выбирая статьи, подходящие к делу, и добавлять детали, связанные с личностью участника и самим делом.
Здесь важно учесть множество факторов для всестороннего рассмотрения дела, основываясь на законах, а не на прецедентном праве.
Спасибо, за замечание, добавил уточнение.
Проблема во втором типе вопросов, когда на входе термин. Да, это не работает. И цифры это подтверждают. Теперь цель найти решение, для таких кейсов. А не наступать на мои грабли)
Спасибо за уточнение)
Тест построен, чтобы показать, что точность в случаях с терминами низкая и найти этому простое решение. Об этом нюансе не пишут. Надеюсь, что кто-то прочитает и будет полезно учитывать этот фактор.
Например, если будет грузить свой какой-то справочник терминов с остальной информацией.
В случае с толковым словарем Ожегова, может быть 2 типа вопросов:
По содержимому или значению найти термин
Найти термин, что он обозначает
Правильно ли я понимаю, что вы предлагаете использовать для первого типа векторную. А для второго типа "запрос к словарю" - другую БД?
Дупликация данных? Доп. ресурсы? Как отделять первый тип от второго? Классификация?
В таком случае, это уже не похоже на "по-быстрому", а задача как раз в этом. Минимальные усилия и максимальный результат)
GitHub - avidale/encodechka: The tiniest sentence encoder for Russian language
Именно поэтому обычный чат бот, типа того же GPT, не справится с юридическими и правовыми вопросами. В этом случае нужна языковая модель, обученная на конкретных законах.
Что в искусственный интеллект вложишь, то из него и получишь. Ведь не обязательно брать в расчет только прецеденты. В правовой системе можно ориентироваться на законы, выбирая статьи, подходящие к делу, и добавлять детали, связанные с личностью участника и самим делом.
Здесь важно учесть множество факторов для всестороннего рассмотрения дела, основываясь на законах, а не на прецедентном праве.