Comments / Profile of AlexanderButakov / Habr

User

Система автоматического реферирования для трех языков

AlexanderButakov Nov 29 2015 at 08:23

Да, рандом меня тоже удивил. Прогонял его действительно один раз и не подумал о нескольких итерациях. Спасибо за замечание, видимо, нужно будет добавить ещё колонку с усреднённым рандомом.

Система автоматического реферирования для трех языков

AlexanderButakov Nov 27 2015 at 09:13

Често говоря, не нашел в работе четкого объяснения, чем этот алгоритм отличается от существующих.

А вообще, чтобы понять, работает или нет, вредит или нет, нужно провести объективную капитальную оценку качества, в идеале с использованием рефератов, составленных людьми. Собрать такое количество рефератов, в особенности для русского и немецкого — дело трудное.

Система автоматического реферирования для трех языков

AlexanderButakov Nov 27 2015 at 08:56

Согласен, представленные значения — это скорее субъективная попытка удостовериться, что алгоритм работает, и не всё так плохо, как могло бы быть.

Общепринятые датасеты, отсылку на которые можно встретить в любой статье по автоматическому реферированию, — это материалы DUC. Их, к сожалению, нельзя скачать просто так, нужно заполнить несколько форм и отправить их организаторам, после чего будет выдан доступ.

Основные метрики для измерения качества — Recall, Precision, F1-measure, Cosine Similarity (всё это позаимствовано из IR) и сходство n-грам. Реализованы они в наборе ROUGE (тут же есть небольшой набор текстов из DUC) и в Sumy.

Кстати говоря, вот этот учебный проект содержит пакет rouge (который обычно нужно так же запрашивать) и около 50 текстов с человеческими саммари. Правда они больше подходят для оценки качества multi-document summarization.

Система автоматического реферирования для трех языков

AlexanderButakov Nov 27 2015 at 07:48

Добавлю к своему же ответу ещё и питоновский модуль cort.

Система автоматического реферирования для трех языков

AlexanderButakov Nov 27 2015 at 07:40

мне кажется, автор цитаты имел в виду как раз машинное саммари.

Система автоматического реферирования для трех языков

AlexanderButakov Nov 27 2015 at 07:01

Другие инструменты поддерживают и сравнить можно. Можно также поставить ограничение на количество предложений на выходе вне зависимости от объема статьи, например 4 или 5, как это делают TextTeaser или autosummarizer.com. Но вот нужно ли оценивать качество на объемах больше 20%, это вопрос… Есть высказывание Inderjeet Mani, признанного специалиста в области nlp и автоматического реферирования, которое гласит «Саммари объемом 17% от изначального размера текста ускоряет вдвое процесс принятия решений».

Система автоматического реферирования для трех языков

AlexanderButakov Nov 27 2015 at 06:42

Смысл методики (и я не говорил, что она «авторитетная») довольно прост — берем предложение из текста, например второе, смотрим на стоящее слева от него первое предложение и проверяем, есть ли в нем такие же ключевые слова, как и в №2. Совпало, например, одно слово «питон», значит предложение №2 имеет одну свзяь с предложением №1, а так как методика симметричная, то и предложение №1 имеет также одну связь, поскольку в нем повторяется тот же «питон». Дальше проводим ту же проверку справа с предложением №3 и т.д. Чем больше у предложения связей, тем выше его вес.

Что касается пользы, то я не проводил никакой другой оценки качества, кроме представленной здесь в таблицах.

Возникает логичный вопрос, почему я использовал эту методику? Ответ — из чистого любопытсва. Если программных реализаций известных алгоритмов типа LSA или вариаций TextRank в Интернете большое количество, то по данному методу нет ничего, кроме некоторых теоретических публикаций.

Система автоматического реферирования для трех языков

AlexanderButakov Nov 26 2015 at 18:15

Да, замечание дельное, проблема разрешения кореферентности актуальна для любой области nlp. Нужно подумать над тем, как отождествлять личные местоимения и соответствующие им антецеденты, учитывая при этом, что местоимения, как не имеющие веса стоп-слова удаляются в самом начале предобработки.

Нашел пока что только одну доступную библиотеку по этому вопросу — GUITAR

Система автоматического реферирования для трех языков

AlexanderButakov Nov 26 2015 at 14:36

IR — Information Retrieval.
Косинусный коэффициент позаимствован из информационного поиска, где он используется в рамках векторной модели для измерения степени сходства между двумя векторами документов / документов и запроса.