Возможно, проще было бы воспользоваться Гуглем. Код в меньшей мере отражает стиль автора, чем текст, поскольку есть очень много стандартов кодирования, систем именования, парадигм. И быдлокод везде похож.
У меня немного критический вопрос, но тем не менее релевантный к теме вашей работы:) Чем ваша работа лучше, чем уже существующие разработки в этой области, если вы не выполняли обширных тестов, чтобы сравнивать ваше решение с уже существующими? Полагаю все же, что у вас есть некоторые преимущества, если есть дипломы с конференций.
Преимущества, без сомнений, есть. Для начала: методы разработаны мною. Сколько ни рыл, нигде не применялась нейросистема. (А карта благозвучия и вовсе моё изобретение.) И хотя для комплексного анализа авторства не хватает, разумеется, теории вероятности, ещё один метод распознавания — это хорошо. Моя программа представляет собой эксперимент, исследование. Для стадии производства она не годится; но значительная ценность программы в том, что начинаешь понимать, как её нужно писать, когда она закончена. То есть, я готов написать с нуля ещё одну или даже две версии, которые, в конце концов, могли бы стать полноценным продуктом. Заметьте ещё, что эта работа значительно выше любой дипломной работы.
Но это смотря в каком универе вы защищаете диплом, у меня бы в универе вас даже до защиты не допустили бы без сравнения с существующими аналогами и обоснованием чем у вас лучше и не изобретаете ли вы велосипед. :)
Эффективность не слишком высокая, может, имеет смысл сравнить с предыдущими работами?
Вопросами авторства занимался еще Колмогоров, неплохую работу написали Фоменко Т. и В. (родители «того самого») www.chronologia.org/xpon2/dop3.html. Первый сервис на русском «Штампомер» teneta.rinet.ru/2000/hudlomer/s.html сделал Делицын.
Сравните, для начала, с ним, если есть продвижение, имеет смысл идти дальше.
Спасибо за ссылки. «Штампомер» не умеет много гитик больших текстов. И он сравнивает 1 текст с 1. Это жуть как неудобно. Лучше сравнивать с «Лингвоанализатором» (http://www.google.ru/url?sa=t&source=web&cd=1&ved=0CBcQFjAA&url=http%3A%2F%2Fwww.rusf.ru%2Fbooks%2Fanalysis%2F&rct=j&q=%D0%9B%D0%B8%D0%BD%D0%B3%D0%B2%D0%BE%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%82%D0%BE%D1%80&ei=avliTc2pH4mEOqnqrO8N&usg=AFQjCNFq3iaCxxYzYou0_vdoyhR0A165ew&sig2=-OSfhoW7QseIp0z49GU2CA&cad=rja). Могу вас уверить, что если бы в моей программе было больше характеристик текста, она стала бы не менее точной; тем паче, я планировал добавить и другие методы распознавания авторства, не только с помощью нейросистемы, но и, в частности, с помощью теории вероятности. Суть была не в том, чтобы создать инструмент (хотя диплом я так и позиционировал, но это для защиты), суть была в том, чтобы написать экспериментальную программу, основываясь на которой можно написать настоящую, для производства.
Дэн Браун — Код да Винчи
Лукьяненко Перумов — Не время для драконов
Перумов — Алмазный меч Деревянный меч
Роджер Желязны — Дилвиш Проклятый
Роджер Желязны — Хроники Эмбера 1
Роджер Желязны — Хроники Эмбера 2
Рэй Брэдбери — Лед и пламя 1-6 главы
Рэй Брэдбери — Лед и пламя 7-9 главы
Сергей Лукьяненко — Ночной дозор
Сергей Лукьяненко — Черновик
Станислав Лем — Из воспоминаний Ийона Тихого
Станислав Лем — Осмотр на месте
Александр Дихнов — Один мертвый керторианец
Александр Дихнов — Три луны Кертории
Альфред Ван-Вогт — Галактика М33
Борис Акунин — Азазель
Борис Акунин — Смерть Ахиллеса
Льюис Кэрролл — Алиса в Зазеркалье
Льюис Кэрролл — Алиса в стране чудес
Перумов — Гибель Богов
Рэй Брэдбери — 451 градус по Фаренгейту
Сергей Лукьяненко — Чистовик
Супруги Дихновы — Дракон-детектив
Если не секрет, с чем связан ваш интерес? Мне любопытно :)
Текстовый анализатор: распознавание авторства (окончание)