graninas Feb 21 2011 at 07:18

Текстовый анализатор: распознавание авторства (окончание)

7 min

2.9K

Website development *

+30

Comments 18

UFO landed and left these words here

graninas Feb 21 2011 at 23:35

Намекаете, что это не моё? Это моё. От корки и до корки.

PapaBubaDiop Feb 21 2011 at 09:55

Вот бы через такой анализатор пропустить C++ код и узнать авторство.

graninas Feb 21 2011 at 23:36

Возможно, проще было бы воспользоваться Гуглем. Код в меньшей мере отражает стиль автора, чем текст, поскольку есть очень много стандартов кодирования, систем именования, парадигм. И быдлокод везде похож.

AndreyDmitriev Feb 21 2011 at 09:56

«Министра обороны Карла-Теодора цу Гуттенберга уличили в том, что при написании диссертации он вставлял в текст целые абзацы из работ других авторов»

Это не вы, случайно, потренировались?

vilky Feb 21 2011 at 13:10

Пращур этого Гуттенберга некогда изобрёл книгопечатный станок, и вот до чего это довело его потомка! Яблоко от яблоньки.

EiZeRR Feb 21 2011 at 10:07

У меня немного критический вопрос, но тем не менее релевантный к теме вашей работы:) Чем ваша работа лучше, чем уже существующие разработки в этой области, если вы не выполняли обширных тестов, чтобы сравнивать ваше решение с уже существующими? Полагаю все же, что у вас есть некоторые преимущества, если есть дипломы с конференций.

graninas Feb 21 2011 at 23:44

Преимущества, без сомнений, есть. Для начала: методы разработаны мною. Сколько ни рыл, нигде не применялась нейросистема. (А карта благозвучия и вовсе моё изобретение.) И хотя для комплексного анализа авторства не хватает, разумеется, теории вероятности, ещё один метод распознавания — это хорошо. Моя программа представляет собой эксперимент, исследование. Для стадии производства она не годится; но значительная ценность программы в том, что начинаешь понимать, как её нужно писать, когда она закончена. То есть, я готов написать с нуля ещё одну или даже две версии, которые, в конце концов, могли бы стать полноценным продуктом. Заметьте ещё, что эта работа значительно выше любой дипломной работы.

EiZeRR Feb 22 2011 at 11:38

Но это смотря в каком универе вы защищаете диплом, у меня бы в универе вас даже до защиты не допустили бы без сравнения с существующими аналогами и обоснованием чем у вас лучше и не изобретаете ли вы велосипед. :)

А вообще работы такие с нейросетями уже были и достаточно много scholar.google.com/scholar?hl=en&q=authorship+neural+networks&btnG=Search&as_sdt=0%2C5&as_ylo=&as_vis=0

Neir0 Feb 21 2011 at 10:39

А в скомпилированном виде нет программки?

graninas Feb 21 2011 at 23:44

Я скомпилирую для вас программу. Ждите ссылку.

graninas Feb 22 2011 at 10:33

Готово: sourceforge.net/projects/textanalyzerv04/files/TextAnalyser%200.4%20alpha/TextAnalyser.exe/download

Уверен, программа вам не понравится. :)

acidnik Feb 21 2011 at 11:06

Теперь мы наконец-то сможем узнать, действительно ли Шолохов написал Тихий Дон?

graninas Feb 21 2011 at 23:45

Я на его счёт не сомневался. :)

Trept Feb 21 2011 at 12:06

Эффективность не слишком высокая, может, имеет смысл сравнить с предыдущими работами?
Вопросами авторства занимался еще Колмогоров, неплохую работу написали Фоменко Т. и В. (родители «того самого») www.chronologia.org/xpon2/dop3.html. Первый сервис на русском «Штампомер» teneta.rinet.ru/2000/hudlomer/s.html сделал Делицын.
Сравните, для начала, с ним, если есть продвижение, имеет смысл идти дальше.

graninas Feb 21 2011 at 23:50

Спасибо за ссылки. «Штампомер» не умеет ~~много гитик~~ больших текстов. И он сравнивает 1 текст с 1. Это жуть как неудобно. Лучше сравнивать с «Лингвоанализатором» (http://www.google.ru/url?sa=t&source=web&cd=1&ved=0CBcQFjAA&url=http%3A%2F%2Fwww.rusf.ru%2Fbooks%2Fanalysis%2F&rct=j&q=%D0%9B%D0%B8%D0%BD%D0%B3%D0%B2%D0%BE%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%82%D0%BE%D1%80&ei=avliTc2pH4mEOqnqrO8N&usg=AFQjCNFq3iaCxxYzYou0_vdoyhR0A165ew&sig2=-OSfhoW7QseIp0z49GU2CA&cad=rja). Могу вас уверить, что если бы в моей программе было больше характеристик текста, она стала бы не менее точной; тем паче, я планировал добавить и другие методы распознавания авторства, не только с помощью нейросистемы, но и, в частности, с помощью теории вероятности. Суть была не в том, чтобы создать инструмент (хотя диплом я так и позиционировал, но это для защиты), суть была в том, чтобы написать экспериментальную программу, основываясь на которой можно написать настоящую, для производства.

Akr0n Jul 9 2011 at 13:12

На каких авторах\произведениях тестировалась программа?

graninas Jul 9 2011 at 13:43

Добрый день!

Вот тестовые наборы:

Дэн Браун — Код да Винчи
Лукьяненко Перумов — Не время для драконов
Перумов — Алмазный меч Деревянный меч
Роджер Желязны — Дилвиш Проклятый
Роджер Желязны — Хроники Эмбера 1
Роджер Желязны — Хроники Эмбера 2
Рэй Брэдбери — Лед и пламя 1-6 главы
Рэй Брэдбери — Лед и пламя 7-9 главы
Сергей Лукьяненко — Ночной дозор
Сергей Лукьяненко — Черновик
Станислав Лем — Из воспоминаний Ийона Тихого
Станислав Лем — Осмотр на месте

Александр Дихнов — Один мертвый керторианец
Александр Дихнов — Три луны Кертории
Альфред Ван-Вогт — Галактика М33
Борис Акунин — Азазель
Борис Акунин — Смерть Ахиллеса
Льюис Кэрролл — Алиса в Зазеркалье
Льюис Кэрролл — Алиса в стране чудес
Перумов — Гибель Богов
Рэй Брэдбери — 451 градус по Фаренгейту
Сергей Лукьяненко — Чистовик
Супруги Дихновы — Дракон-детектив

Если не секрет, с чем связан ваш интерес? Мне любопытно :)