Как стать автором
Обновить

Комментарии 3

А можете подробнее написать, что это дает например тому же башкирскому? Как можно применить?

Вот есть база(https://github.com/Perevalov/qald_9_plus/tree/main/data), там меньше 1000 вопросов и ответов. Ответы в виде ссылки. Пока не понимаю, как из вопроса вытаскиваются сущности. Можно ли на основе этих вопросов научиться отвечать на другие вопросы? Как вообще эти данные преобразовывать в запросы, чтоб на сайте викидата их хотя бы использовать?

Как вообще эти данные преобразовывать в запросы, чтоб на сайте викидата их хотя бы использовать?

Это фундаментальный вопрос всей темы информационного поиска. Можно почитать тут более подробно про то, как делается Question Answering: https://web.stanford.edu/~jurafsky/slp3/23.pdf, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.233.6482&rep=rep1&type=pdf

Также стоит добавить, что это не столько датасет, сколько бенчмарк. Т.е. набор данных для оценки точности системы с небольшим тренировочным набором для оптимизации. Тренировочных данных и моделей для под-задач информационного поиска, например, распознавание именованых сущностей множество, однако, очень мало качественных данных для оценки систем ответа на вопросы и информационного поиска целиком (особенно на нескольких языках).

что это дает например тому же башкирскому? Как можно применить?

В следствие того, что я описал, бенчмарк даёт возможность адекватно оценить работоспособность системы на башкирском языке + если необходимо донастройки системы на имеющемся тренировочном наборе

Ответы в виде ссылки

На самом деле это не ссылка, а идентификатор ресурса (URI)

 как из вопроса вытаскиваются сущности

Есть множество подходов к Named Entity Recognition / Linking это и есть та самая задача вытаскивания сущностей

чтоб на сайте викидата их хотя бы использовать?

Система сама по себе не общается с "сайтом", а с так называемой точкой доступа данных SPARQL, после того как запрос сгенерирован, он исполняется и возвращается ответ. Пусть ответом на вопрос "кто президент США?" будет Джо Байден. Получив URI Джо Байдена в викидате, мы на его основе можем красиво визуализировать ответ имея данные, находящиеся в ней и имеющие отношения к URI (изображение, краткая биография и тд). В общем всё то же самое что делает гугл (и он делает это в точности как я и описал)

Для примера, можно поиграться тут: https://qanswer-frontend.univ-st-etienne.fr/

Понял, спасибо.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории