Pull to refresh
7
0
Alexander Butakov @AlexanderButakov

User

Send message
Могу также порекомендовать GoogleScrapper для извлечения ссылок, заголовков и сниппетов из поисковой выдачи. Хотя свой корпус новостных текстов собирал так же как и Kwent, кроулер ходил по рубрикам крупных новостных сайтов, а newspaper делал всю остальную работу.

Если можно в двух словах, что будете использовать непосредственно для классификации текстов?
Да, рандом меня тоже удивил. Прогонял его действительно один раз и не подумал о нескольких итерациях. Спасибо за замечание, видимо, нужно будет добавить ещё колонку с усреднённым рандомом.
Често говоря, не нашел в работе четкого объяснения, чем этот алгоритм отличается от существующих.

А вообще, чтобы понять, работает или нет, вредит или нет, нужно провести объективную капитальную оценку качества, в идеале с использованием рефератов, составленных людьми. Собрать такое количество рефератов, в особенности для русского и немецкого — дело трудное.
Согласен, представленные значения — это скорее субъективная попытка удостовериться, что алгоритм работает, и не всё так плохо, как могло бы быть.

Общепринятые датасеты, отсылку на которые можно встретить в любой статье по автоматическому реферированию, — это материалы DUC. Их, к сожалению, нельзя скачать просто так, нужно заполнить несколько форм и отправить их организаторам, после чего будет выдан доступ.

Основные метрики для измерения качества — Recall, Precision, F1-measure, Cosine Similarity (всё это позаимствовано из IR) и сходство n-грам. Реализованы они в наборе ROUGE (тут же есть небольшой набор текстов из DUC) и в Sumy.

Кстати говоря, вот этот учебный проект содержит пакет rouge (который обычно нужно так же запрашивать) и около 50 текстов с человеческими саммари. Правда они больше подходят для оценки качества multi-document summarization.
Добавлю к своему же ответу ещё и питоновский модуль cort.
мне кажется, автор цитаты имел в виду как раз машинное саммари.
Другие инструменты поддерживают и сравнить можно. Можно также поставить ограничение на количество предложений на выходе вне зависимости от объема статьи, например 4 или 5, как это делают TextTeaser или autosummarizer.com. Но вот нужно ли оценивать качество на объемах больше 20%, это вопрос… Есть высказывание Inderjeet Mani, признанного специалиста в области nlp и автоматического реферирования, которое гласит «Саммари объемом 17% от изначального размера текста ускоряет вдвое процесс принятия решений».
Смысл методики (и я не говорил, что она «авторитетная») довольно прост — берем предложение из текста, например второе, смотрим на стоящее слева от него первое предложение и проверяем, есть ли в нем такие же ключевые слова, как и в №2. Совпало, например, одно слово «питон», значит предложение №2 имеет одну свзяь с предложением №1, а так как методика симметричная, то и предложение №1 имеет также одну связь, поскольку в нем повторяется тот же «питон». Дальше проводим ту же проверку справа с предложением №3 и т.д. Чем больше у предложения связей, тем выше его вес.

Что касается пользы, то я не проводил никакой другой оценки качества, кроме представленной здесь в таблицах.

Возникает логичный вопрос, почему я использовал эту методику? Ответ — из чистого любопытсва. Если программных реализаций известных алгоритмов типа LSA или вариаций TextRank в Интернете большое количество, то по данному методу нет ничего, кроме некоторых теоретических публикаций.
Да, замечание дельное, проблема разрешения кореферентности актуальна для любой области nlp. Нужно подумать над тем, как отождествлять личные местоимения и соответствующие им антецеденты, учитывая при этом, что местоимения, как не имеющие веса стоп-слова удаляются в самом начале предобработки.

Нашел пока что только одну доступную библиотеку по этому вопросу — GUITAR
IR — Information Retrieval.
Косинусный коэффициент позаимствован из информационного поиска, где он используется в рамках векторной модели для измерения степени сходства между двумя векторами документов / документов и запроса.

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Registered
Activity