Как стать автором
Обновить
2
1

Пользователь

Отправить сообщение

Для экспериментов мы использовали все сущности, которые содержались в датасете SynthIE. В нем содержались только сущности с уникальными именами.

Однако вы задали очень логичный вопрос, на практике действительно могут встречаться синонимичные сущности. Сейчас мы работаем над новой версией пайплайна, в которой используем их описания, чтобы различать одинаковые по написанию сущности в зависимости от контекста, в котором они используются.

Используемые индексы для поиска сущностей и отношений содержали 2.7M и 1.2K наименований соответственно. Проиндексированы были все имена сущностей и отношений из датасета SynthIE.

Использовалась Flat реализация FAISS индекса, работающая на CPU, потому что точность поиска для нас была важнее занимаемого времени. Поэтому время для поиска сущностей занимало до 4с. Однако эта реализация может быть значительно оптимизирована с использованием индекса на GPU и экспериментами с различными типами индексов, чтобы найти компромисс между точностью и временем выполнения запроса.

Статистистики вычислялись по трем запускам с разными промптами. По своей структуре промпты для разных запусков различались только few-shot примерами из тренировочного датасета.

Информация

В рейтинге
1 636-й
Зарегистрирован
Активность