Scorobey Mar 4 2017 at 12:18

Программа на PYTHON для определения авторства текста по частоте появления новых слов

11 min

14K

Comments 19

GH0st3rs Mar 4 2017 at 13:35

Реферат может быть и норм, но как статья он ни о чем. Это чисто моё мнение. Думаю стоило привести больше кода, с его описанием.
Тема не плохая, например можно было привести пример работы этого алгоритма на анализе сообщений из соц. сетей.

iXCray Mar 4 2017 at 15:32

Угадаю автора сообщения с одного кек

zone19 Mar 6 2017 at 08:07

Я думаю алгоритм для небольших сообщений не будет работать.

encyclopedist Mar 4 2017 at 20:12

Пожалуйста, не надо скриншоты в JPEG!

ProstoTyoma Mar 4 2017 at 22:35

Скоро буден нужен обфускатор для естественного языка.

isden Mar 5 2017 at 05:57

Есть уже, вот буквально вчера копал про grammarly и hemingway — там есть возможность коррекции структуры предложений и замены сложных слов синонимами.

SomeOneWhoCares Mar 5 2017 at 11:31

По моему мнению эта статья новое направление в определении авторства, нельзя называть ее рефератом и рекомендовать в качестве примера — использовать отзывы в социальных сетях. (это далеко не Дэн Броун)

LingvoLena Mar 5 2017 at 12:37

Я прочитала вашу статью и специально зарегистрировалась вчера, чтобы поблагодарить вас, но вы отклонили мою благодарность, когда я сегодня увидела код, с большим трудом переписала его и запустила. Я поняла: вы законченный альтруист. Ваша статья достойна серьезного научного журнала, почему вы ее опубликовали здесь?

Scorobey Mar 5 2017 at 12:39

Хорошо отвечу вам. Я не люблю похвал. Но для Хабра мне ни чего не жалко.

schetilin Mar 6 2017 at 07:42

По теме могу посоветовать:
Серия книг «Знак вопроса» №11 1991 г. «Другому как понять тебя?»

Знаете ли вы, что примерно половина дошедшего до нас литературного наследия анонимна? А не задумывались ли, что, изучая текст, можно не только установить автора, но и получить его психологический портрет?.

http://www.rulit.me/series/znak-voprosa/drugomu-kak-ponyat-tebya-download-free-252162.html

UFO landed and left these words here

Scorobey Mar 6 2017 at 11:14

Да это не сложно. Если Вам это интересно могу опубликовать дополнение с применением pymorphy2.Сообщите какие части нужно сравнивать я приведу в качестве примера.

UFO landed and left these words here

YourChief Mar 6 2017 at 17:48

Для минусующих, кто литературой не интересуется, поясню, что идея это весьма здравая, так как сомнения в авторстве «Тихого Дона» Шолоховым весьма обоснованы.

zooks Mar 6 2017 at 19:44

Для начала нужно протестировать корректность работы программы на других классиках. А затем уже можно будет смело развеять «сомнения» среди всяких умников.

Scorobey Mar 6 2017 at 21:17

Я не помещаю не проверенных программ. Более 40 троек различных авторов показали устойчивое определение по предложному алгоритму. Вот пример Tolkien J.
The Lord of the Rings (1995) Tolkien J
The Lord of the Ring 1 — The Fellowship of the Ring(1954)
Вот результат
Factor --a 426.648 Factor--b 9584.508 Mistake of approximation-- 0.086%
In total of words (Text-1) --265287. New words --15214. Percen new words-- 6
Factor --a 165.307 Factor--b 3358.964 Mistake of approximation-- 0.0833%
In total of words (Text-2) --90121. New words --6713. Percent new words-- 7
Factor --a 26.325 Factor--b 644.835 Mistake of approximation-- 0.0906%
In total of words (Text-3) --13754. New words --2712. Percent new words-- 20
Average distances between art products of the author K--435.85
Average distance between art products of the authors K and M--650.913
При желании проверите сами.

Scorobey Mar 6 2017 at 21:43

Для анализа русскоязычных авторов достаточно строку stemmer = SnowballStemmer('english') заменить на строку stemmer = SnowballStemmer('russian') а вместо stop_words= nltk.corpus.stopwords.words('english') записать русские стоп слова например из. Стоп- символы русского языка http://www.algorithmist.ru/2010/12/stop-symbols-in-russian.html. stop_words=['-', 'еще', 'него', 'сказать', 'а', 'ж', 'нее', 'со', 'без', 'же', 'ней', 'совсем',
'более', 'жизнь', 'нельзя', 'так', 'больше', 'за', 'нет', 'такой', 'будет', 'зачем', 'ни',
'там', 'будто', 'здесь', 'нибудь', 'тебя', 'бы', 'и', 'никогда', 'тем', 'был', 'из', 'ним',
'теперь', 'была', 'из-за', 'них', 'то', 'были', 'или', 'ничего', 'тогда', 'было', 'им', 'но',
'того', 'быть', 'иногда', 'ну', 'тоже', 'в', 'их', 'о', 'только', 'вам', 'к', 'об', 'том', 'вас',
'кажется', 'один', 'тот', 'вдруг', 'как', 'он', 'три', 'ведь', 'какая', 'она', 'тут', 'во', 'какой',
'они', 'ты', 'вот', 'когда', 'опять', 'у', 'впрочем', 'конечно', 'от', 'уж', 'все', 'которого',
'перед', 'уже', 'всегда', 'которые', 'по', 'хорошо', 'всего', 'кто', 'под', 'хоть', 'всех',
'куда', 'после', 'чего', 'всю', 'ли', 'потом', 'человек', 'вы', 'лучше', 'потому', 'чем', 'г',
'между', 'почти', 'через', 'где', 'меня', 'при', 'что', '\nговорил', 'мне', 'про', 'чтоб', 'да',
'много', 'раз', 'чтобы', 'даже', 'может', 'разве', 'чуть', 'два', 'можно', 'с', 'эти', 'для',
'мой', 'сам', 'этого', 'до', 'моя', 'свое', 'этой', 'другой', 'мы', 'свою', 'этом', 'его', 'на',
'себе', 'этот', 'ее', 'над', 'себя', 'эту', 'ей', 'надо', 'сегодня', 'я', 'ему', 'наконец', 'сейчас',
'если', 'нас', 'сказал', 'есть', 'не', 'сказала']

honor8 Mar 7 2017 at 08:47

Если интересует смысловая нагрузка, то «не», «без», «безо» и «кроме» нельзя просто исключать, а «ещё» и «между» нужно оценивать исходя из контекста. Из комментариев: не согласен со стоп-словом «статья», — её нужно выделять в отдельный список, т.к. у статьи есть номер. Зато «коап» вполне может быть стоп-словом.

Scorobey Mar 7 2017 at 13:17

Я использовал stop_words= nltk.corpus.stopwords.words('english') с корпуса официального корпуса Brown.На русские стоп слова я дал ссылку http://www.algorithmist.ru/2010/12/stop-symbols-in-russian.html. Из которой они переписаны как вариант для использования. Если ссылка Вас не устраивает создайте собственный собственный список стоп-слов. Замечание не по адресу.