Pull to refresh

Web Private Detective 1.0

Reading time 3 min
Views 842

Вступление




В прошлый раз мы Вам говорили о том, каким образом можно осуществить поиск персон в тексте. Подобные вещи оказываются очень полезными для аналитиков, которые каждый день следят за новостями и вынуждены мониторить присутствие той или иной персоны в СМИ. Самые большие проблемы начинаются если эта персона еще и локального значения, и в интернете можно найти достаточно много информации о ней. Но все равно информация о ней очень дисперсирована и не структурирована. С кем связана эта персона? С кем она чаще всего взаимодействует? В контексте каких тем персона чаще всего поднимается в интернете?

Не обязательно чтобы эта персона была человеком. Было бы неплохо введя, например, название сериала “X-Files” получить информацию о том, кто в нем играет, какие персонажи там главные, какие основные объекты фильма (ФБР например;) ) и т.д.

Развивая идею можно сказать, что очень замечательно бы было еще и иметь возможность мониторить все связи искомого объекта в реальном времени. А что? Не плохо было бы специалисту из отдела внутренней безопасности прийти на работу и увидеть извещение о том, что один из подопечных вдруг начал вести активную деятельность под своим “персональным” почтовым адресом на форуме конкурентов.
И хоть последний абзац пока для нас является, так сказать, RoadMap-ом, то первые два уже можно считать явью и реализованными хоть в какой-то мере.

Совсем немного истории


К слову сказать, ранее, до первой стабильной версии, он назывался MadWin (I, II). И только сейчас, дойдя до стабильного релиза, проект получил новое дыхание, а с ним новую иконку и название. Сам проект распространяется под коммерческой лицензией и со временем перейдет на платную основу. Фактически, поддержка и помощь с внедрением(интеграция в стороннее программное обеспечение) его уже платна для наших основных и постоянных клиентов. Но пока это первый стабильный релиз, который как минимум месяц будет доступен для бесплатного скачивания и использования в ознакомительных целях.

Функционал


Итак, что же уже реализовано и каким функционалом обладает программа:
  • Выделение персон в тексте и организаций;
  • Поиск фактов, связанных с персонами;
  • Сортировка персон в порядке важности, поисков Персон-синонимов или же вложенных персон;
  • Измерения связи между персонами и построение детальной таблицы взаимосвязей (глубина анализа взаимосвязей регулируема).

Все заданные функции программы может выполнять по отношению к одному из возможных источников информации:
  • файл (анализирует только ТХТ или HTML файлы);
  • папка в которой содержится хотя бы один выше указанный файл;
  • веб-сайт, точнее страница, анализ которой проведет программа;
  • массив страниц который вернет гугл в результат определенного запроса.

К сожалению, пока нет возможности указывать несколько источников. Также нельзя заставить программу анализировать несколько разных папок, пару файлов и несколько разных страниц на сайте. Но это появиться в версии 1.1, как и множество других вкусностей.

Указав источник, достаточно лишь указать программе адрес для сохранения результата. Отчет в формате HTML. И все. Хотя иногда, если связи в тексте достаточно запутаны, то может потребоваться указать более маленькую глубину анализа связей, чтобы ускорить результат работы алгоритма.

Результаты


Ну а теперь предложим читателям, для ознакомления, примеры работы алгоритма. Например анализ сайта: kde.org. Далее приведена ссылка на результат-отчет.

Проект распространятся в сборке под самые основные платформы в виде бинарных пакетов deb и rpm под 32х битную архитектуру. Также имеется версия, которая работает под 32х битной Windows с инсталлятором. Обновления программы можно всегда найти тут, или же на официальной страничке проекта. Более детальная инструкция со скринами и пошаговым описанием работы смотрите тут.

А что далее?


Если проект Вас заинтересовал, то вот краткие нововведения, которые можно будет увидеть в будущем релизе 1.1:
  • множественные источники данных;
  • измененный графический интерфейс (табы);
  • улучшена система работы с объектами (под объектами подразумевается любая дополнительная информация об основных персонах — почта, адрес, телефон и т.д.)
.
Но самым вкусным нововведением, кроме перечисленных выше, будет возможность в автоматическом режиме присваивать метки файлам в KDE. Программа сможет получив на входе адрес папки, проанализировав каждый файл ТХТ или HTML, автоматически присвоить каждому файлу теги с персонами, о которых идет речь в файле. Быть может подобный функционал будет доступен и пользователям Windows 7, но скорее всего нет.

links


сайт проекта
OpenDesktop
Блог автора
twitter
Tags:
Hubs:
+1
Comments 3
Comments Comments 3

Articles