Durham Jul 10 2015 at 14:28

Простой метод для извлечения соотношений и фактов из текста

4 min

16K

MeanoTek corporate blogWebsite development*Semantics*Machine learning*

+11

Comments 7

elingur Jul 11 2015 at 09:58

Идея не нова, и, я считаю, перспективна в соотношении скорость/качество. Вопрос: какой объем выборки использовали для обучения? Каковы результаты точности и полноты? Кстати, почему у вас частица «не» стала предикатом?

Durham Jul 11 2015 at 13:16

О новизне речи и не идет, мы просто рассказываем о полезном методе и показываем, что можно получить результаты быстро, с примером, исключительно в демонстрационных и учебных целях. Объем обучающей выборки указан в тексте статьи (100 предложений), тестовой 35 предложений. По причине столь малого объема данных точность и полноту в плане извлеченных фактов не считали. В плане аннотации последовательности, F1 для извлечения объектов получается где-то 59.7, но опять таки неопределенность в связи с маленькой выборкой велика. Задачей было убедится, что приводимый пример вообще работоспособен, и результаты имеют смысл. Что касается частицы не, мы решили объединить не_вываливается, не_совпадает и т.п. в одну сущность, поскольку других средств для учета отрицания в описанном методе не предусмотрено, и если их вводить, то придется добавлять еще усложнения.

elingur Jul 12 2015 at 10:57

Могу поделиться своим опытом. На CRF реализовано большинство лингвистических моделей: PoS-tagger (точность по F1 около 96%), NER — по трем типам сущностей — 92%, сентимент анализ (object-based) — 86%, и поверхностный синтаксис или разметка синтаксических ролей (то что у вас называется разметкой семантических ролей — это все-таки не семантические роли, ибо не несут смысла, а только определяют роль слова в предложении) — 98%. Обучение не выборке около 50 тыс.предложений, сентимент анализ — около 16 тыс. (все русский язык). Правда использовать только один параметр в CRF не выгодно, т.к. получается почти как SVM, можно и нужно варьировать сразу нескольким, чтобы добиться наилучшей точности.

Durham Jul 12 2015 at 11:51

За информацию спасибо. Вообще на 50 тыс. предложений можно много чего сделать, это не новость, и мы в курсе общего положения дел. Тут мы писали для тех, у кого нет 50 тыс. размеченных предложений для своей задачи, о том как быть, и на что можно рассчитывать. Ну и кстати говоря, все это довольно чувствительно к области применения — NER на новостных текстах может показывать 92%, а на, скажем постах в форумах цифры сильно упадут. Также и с другими задачами.

DKey Jul 12 2015 at 10:56

Стало интересно посмотреть, как наш синтаксический анализатор разбирает предложения. Получилось, например:

В комплекте помимо обычного ножа есть для пунктирной насечки.

По идее, Ваш метод будет точнее, если скрестить его с анализатором, натренировав CRF на авто-разметке.

Durham Jul 12 2015 at 11:28

К сожалению, картинка мне не видна

DKey Jul 12 2015 at 12:21

Ссылка ведёт на наш сервис, видимо, не всегда что-то срабатывает. Скопировал на внешний ресурс:
http://pasteboard.co/1TPnkJqt.png