Pull to refresh

Comments 10

А если имена сделать одинаковыми, то насколько текст будет одинаковым?

Добрый день!

Убрала имена собственные из датасетов. Запустила скрипт.

One‑class SVM Classification отработал лучше.

Было: 12 — количество текстов Лескова, определённых как тексты Бажова, 18 — количество правильно определённых текстов Лескова.

Стало: 8 — количество текстов Лескова, определённых как тексты Бажова, 22 — количество правильно определённых текстов Лескова.

Что касается метода Кульбака‑Лейблера, то он отработал так же, как и ранее. Это связано с тем, что среди специфичных слов, определенных с помощью этого метода, практически нет имен собственных.

А на би-/мульти-граммах или эмбеддингах не пробовали классификатор строить?

Доброго времени суток! Спасибо за вопрос.

Расхождение Кульбака‑Лейблера не используется для работы с векторным представлением слов.

А что касается сочетаний из нескольких слов, то метод Кульбака‑Лейблера можно использовать в качестве первого шага. С его помощью можно найти ключевые слова (в англоязычной литературе используют термины keywords, headwords, node words).

Скорее всего, нужны не просто би‑/мульти‑граммы, а устойчивые словосочетания. Иногда их приравнивают к термину коллокации. Так вот, коллокации можно определить с использованием ассоциативных мер, коих очень много: Mutual Information, Log‑likelihood, T‑score, logDice и т. д. Тут есть свои нюансы. Например, нужно определиться с коллокационным окном — сколько слов до ключевого слова и после ключевого слова рассматривать в качестве потенциальных коллокатов.

На основе выделенных коллокаций можно строить классификатор или кластеризовать данные, но это уже тема отдельной статьи. Интересно было бы почитать такую статью?

Не могу найти. Гипотеза о том, что за Ильфа и Петрова писал Булгаков, уже была кем-то проверена? Например, ваша модель может дать ответ на нее? И если это не Булгаков, может ли модель отличить Ильфа от Петрова?

Добрый день!

Про исследования гипотезы о том, что за Ильфа и Петрова писал Булгаков не подскажу, не эксперт в этой области. А про то, можно ли отличить Ильфа от Петрова скажу так: если есть достаточно произведений, которые эти авторы написали порознь и авторские словари у них существенно различаются, то метод позволит с большей или меньшей долей уверенности определить авторство произведений.

Переформулирую. Ильф и Петров писали по очереди кусками текста. Есть ли возможность идентифицировать эти куски, зная, что авторов два, и не имея больше никакой информации?

по идее таким кластеризация занимается - если разбить текст на предложения, и потом смотреть - сколько там "похожих друг на друга".
Вопрос только 1) какой критерий? 2) если там будет (например) 10 кластеров, как отличить - где чье творчество ?

Добрый день!

Кластеризация в идеальном для нас варианте поможет разложить тексты на две кучки, а вот какая из этих кучек принадлежит Петрову, а какая Ильфу, мы так и не узнаем.

Добрый день!

Думаю, что нет такой возможности. Если у нас нет примеров связок текст-автор, то ни один алгоритм не сможет определить авторство того или иного текста.

Sign up to leave a comment.