Что касается метода Кульбака‑Лейблера, то он отработал так же, как и ранее. Это связано с тем, что среди специфичных слов, определенных с помощью этого метода, практически нет имен собственных.

nikolay_karelin Dec 28 2023 at 14:56

А на би-/мульти-граммах или эмбеддингах не пробовали классификатор строить?

NewTechAudit Dec 29 2023 at 07:41

Доброго времени суток! Спасибо за вопрос.

Расхождение Кульбака‑Лейблера не используется для работы с векторным представлением слов.

А что касается сочетаний из нескольких слов, то метод Кульбака‑Лейблера можно использовать в качестве первого шага. С его помощью можно найти ключевые слова (в англоязычной литературе используют термины keywords, headwords, node words).

Скорее всего, нужны не просто би‑/мульти‑граммы, а устойчивые словосочетания. Иногда их приравнивают к термину коллокации. Так вот, коллокации можно определить с использованием ассоциативных мер, коих очень много: Mutual Information, Log‑likelihood, T‑score, logDice и т. д. Тут есть свои нюансы. Например, нужно определиться с коллокационным окном — сколько слов до ключевого слова и после ключевого слова рассматривать в качестве потенциальных коллокатов.

На основе выделенных коллокаций можно строить классификатор или кластеризовать данные, но это уже тема отдельной статьи. Интересно было бы почитать такую статью?

Jeshua Dec 28 2023 at 19:52

Не могу найти. Гипотеза о том, что за Ильфа и Петрова писал Булгаков, уже была кем-то проверена? Например, ваша модель может дать ответ на нее? И если это не Булгаков, может ли модель отличить Ильфа от Петрова?

NewTechAudit Dec 29 2023 at 08:49

Добрый день!

Про исследования гипотезы о том, что за Ильфа и Петрова писал Булгаков не подскажу, не эксперт в этой области. А про то, можно ли отличить Ильфа от Петрова скажу так: если есть достаточно произведений, которые эти авторы написали порознь и авторские словари у них существенно различаются, то метод позволит с большей или меньшей долей уверенности определить авторство произведений.

Jeshua Dec 30 2023 at 15:25

Переформулирую. Ильф и Петров писали по очереди кусками текста. Есть ли возможность идентифицировать эти куски, зная, что авторов два, и не имея больше никакой информации?

vassabi Jan 4 at 20:18

по идее таким кластеризация занимается - если разбить текст на предложения, и потом смотреть - сколько там "похожих друг на друга".
Вопрос только 1) какой критерий? 2) если там будет (например) 10 кластеров, как отличить - где чье творчество ?

NewTechAudit Jan 10 at 08:20

Добрый день!

Кластеризация в идеальном для нас варианте поможет разложить тексты на две кучки, а вот какая из этих кучек принадлежит Петрову, а какая Ильфу, мы так и не узнаем.

NewTechAudit Jan 10 at 08:20

Добрый день!

Думаю, что нет такой возможности. Если у нас нет примеров связок текст-автор, то ни один алгоритм не сможет определить авторство того или иного текста.