Comments 19
Реферат может быть и норм, но как статья он ни о чем. Это чисто моё мнение. Думаю стоило привести больше кода, с его описанием.
Тема не плохая, например можно было привести пример работы этого алгоритма на анализе сообщений из соц. сетей.
Тема не плохая, например можно было привести пример работы этого алгоритма на анализе сообщений из соц. сетей.
+13
Пожалуйста, не надо скриншоты в JPEG!
+6
Скоро буден нужен обфускатор для естественного языка.
0
По моему мнению эта статья новое направление в определении авторства, нельзя называть ее рефератом и рекомендовать в качестве примера — использовать отзывы в социальных сетях. (это далеко не Дэн Броун)
-4
Я прочитала вашу статью и специально зарегистрировалась вчера, чтобы поблагодарить вас, но вы отклонили мою благодарность, когда я сегодня увидела код, с большим трудом переписала его и запустила. Я поняла: вы законченный альтруист. Ваша статья достойна серьезного научного журнала, почему вы ее опубликовали здесь?
-4
По теме могу посоветовать:
Серия книг «Знак вопроса» №11 1991 г. «Другому как понять тебя?»
http://www.rulit.me/series/znak-voprosa/drugomu-kak-ponyat-tebya-download-free-252162.html
Серия книг «Знак вопроса» №11 1991 г. «Другому как понять тебя?»
Знаете ли вы, что примерно половина дошедшего до нас литературного наследия анонимна? А не задумывались ли, что, изучая текст, можно не только установить автора, но и получить его психологический портрет?.
http://www.rulit.me/series/znak-voprosa/drugomu-kak-ponyat-tebya-download-free-252162.html
-2
UFO just landed and posted this here
Да это не сложно. Если Вам это интересно могу опубликовать дополнение с применением pymorphy2.Сообщите какие части нужно сравнивать я приведу в качестве примера.
-2
Для минусующих, кто литературой не интересуется, поясню, что идея это весьма здравая, так как сомнения в авторстве «Тихого Дона» Шолоховым весьма обоснованы.
+1
Для начала нужно протестировать корректность работы программы на других классиках. А затем уже можно будет смело развеять «сомнения» среди всяких умников.
-1
Я не помещаю не проверенных программ. Более 40 троек различных авторов показали устойчивое определение по предложному алгоритму. Вот пример Tolkien J.
The Lord of the Rings (1995) Tolkien J
The Lord of the Ring 1 — The Fellowship of the Ring(1954)
Вот результат
Factor --a 426.648 Factor--b 9584.508 Mistake of approximation-- 0.086%
In total of words (Text-1) --265287. New words --15214. Percen new words-- 6
Factor --a 165.307 Factor--b 3358.964 Mistake of approximation-- 0.0833%
In total of words (Text-2) --90121. New words --6713. Percent new words-- 7
Factor --a 26.325 Factor--b 644.835 Mistake of approximation-- 0.0906%
In total of words (Text-3) --13754. New words --2712. Percent new words-- 20
Average distances between art products of the author K--435.85
Average distance between art products of the authors K and M--650.913
При желании проверите сами.
The Lord of the Rings (1995) Tolkien J
The Lord of the Ring 1 — The Fellowship of the Ring(1954)
Вот результат
Factor --a 426.648 Factor--b 9584.508 Mistake of approximation-- 0.086%
In total of words (Text-1) --265287. New words --15214. Percen new words-- 6
Factor --a 165.307 Factor--b 3358.964 Mistake of approximation-- 0.0833%
In total of words (Text-2) --90121. New words --6713. Percent new words-- 7
Factor --a 26.325 Factor--b 644.835 Mistake of approximation-- 0.0906%
In total of words (Text-3) --13754. New words --2712. Percent new words-- 20
Average distances between art products of the author K--435.85
Average distance between art products of the authors K and M--650.913
При желании проверите сами.
+1
Для анализа русскоязычных авторов достаточно строку stemmer = SnowballStemmer('english') заменить на строку stemmer = SnowballStemmer('russian') а вместо stop_words= nltk.corpus.stopwords.words('english') записать русские стоп слова например из. Стоп- символы русского языка http://www.algorithmist.ru/2010/12/stop-symbols-in-russian.html. stop_words=['-', 'еще', 'него', 'сказать', 'а', 'ж', 'нее', 'со', 'без', 'же', 'ней', 'совсем',
'более', 'жизнь', 'нельзя', 'так', 'больше', 'за', 'нет', 'такой', 'будет', 'зачем', 'ни',
'там', 'будто', 'здесь', 'нибудь', 'тебя', 'бы', 'и', 'никогда', 'тем', 'был', 'из', 'ним',
'теперь', 'была', 'из-за', 'них', 'то', 'были', 'или', 'ничего', 'тогда', 'было', 'им', 'но',
'того', 'быть', 'иногда', 'ну', 'тоже', 'в', 'их', 'о', 'только', 'вам', 'к', 'об', 'том', 'вас',
'кажется', 'один', 'тот', 'вдруг', 'как', 'он', 'три', 'ведь', 'какая', 'она', 'тут', 'во', 'какой',
'они', 'ты', 'вот', 'когда', 'опять', 'у', 'впрочем', 'конечно', 'от', 'уж', 'все', 'которого',
'перед', 'уже', 'всегда', 'которые', 'по', 'хорошо', 'всего', 'кто', 'под', 'хоть', 'всех',
'куда', 'после', 'чего', 'всю', 'ли', 'потом', 'человек', 'вы', 'лучше', 'потому', 'чем', 'г',
'между', 'почти', 'через', 'где', 'меня', 'при', 'что', '\nговорил', 'мне', 'про', 'чтоб', 'да',
'много', 'раз', 'чтобы', 'даже', 'может', 'разве', 'чуть', 'два', 'можно', 'с', 'эти', 'для',
'мой', 'сам', 'этого', 'до', 'моя', 'свое', 'этой', 'другой', 'мы', 'свою', 'этом', 'его', 'на',
'себе', 'этот', 'ее', 'над', 'себя', 'эту', 'ей', 'надо', 'сегодня', 'я', 'ему', 'наконец', 'сейчас',
'если', 'нас', 'сказал', 'есть', 'не', 'сказала']
'более', 'жизнь', 'нельзя', 'так', 'больше', 'за', 'нет', 'такой', 'будет', 'зачем', 'ни',
'там', 'будто', 'здесь', 'нибудь', 'тебя', 'бы', 'и', 'никогда', 'тем', 'был', 'из', 'ним',
'теперь', 'была', 'из-за', 'них', 'то', 'были', 'или', 'ничего', 'тогда', 'было', 'им', 'но',
'того', 'быть', 'иногда', 'ну', 'тоже', 'в', 'их', 'о', 'только', 'вам', 'к', 'об', 'том', 'вас',
'кажется', 'один', 'тот', 'вдруг', 'как', 'он', 'три', 'ведь', 'какая', 'она', 'тут', 'во', 'какой',
'они', 'ты', 'вот', 'когда', 'опять', 'у', 'впрочем', 'конечно', 'от', 'уж', 'все', 'которого',
'перед', 'уже', 'всегда', 'которые', 'по', 'хорошо', 'всего', 'кто', 'под', 'хоть', 'всех',
'куда', 'после', 'чего', 'всю', 'ли', 'потом', 'человек', 'вы', 'лучше', 'потому', 'чем', 'г',
'между', 'почти', 'через', 'где', 'меня', 'при', 'что', '\nговорил', 'мне', 'про', 'чтоб', 'да',
'много', 'раз', 'чтобы', 'даже', 'может', 'разве', 'чуть', 'два', 'можно', 'с', 'эти', 'для',
'мой', 'сам', 'этого', 'до', 'моя', 'свое', 'этой', 'другой', 'мы', 'свою', 'этом', 'его', 'на',
'себе', 'этот', 'ее', 'над', 'себя', 'эту', 'ей', 'надо', 'сегодня', 'я', 'ему', 'наконец', 'сейчас',
'если', 'нас', 'сказал', 'есть', 'не', 'сказала']
0
Если интересует смысловая нагрузка, то «не», «без», «безо» и «кроме» нельзя просто исключать, а «ещё» и «между» нужно оценивать исходя из контекста. Из комментариев: не согласен со стоп-словом «статья», — её нужно выделять в отдельный список, т.к. у статьи есть номер. Зато «коап» вполне может быть стоп-словом.
0
Я использовал stop_words= nltk.corpus.stopwords.words('english') с корпуса официального корпуса Brown.На русские стоп слова я дал ссылку http://www.algorithmist.ru/2010/12/stop-symbols-in-russian.html. Из которой они переписаны как вариант для использования. Если ссылка Вас не устраивает создайте собственный собственный список стоп-слов. Замечание не по адресу.
0
Sign up to leave a comment.
Программа на PYTHON для определения авторства текста по частоте появления новых слов