• Web Private Detective 1.0

      Вступление




      В прошлый раз мы Вам говорили о том, каким образом можно осуществить поиск персон в тексте. Подобные вещи оказываются очень полезными для аналитиков, которые каждый день следят за новостями и вынуждены мониторить присутствие той или иной персоны в СМИ. Самые большие проблемы начинаются если эта персона еще и локального значения, и в интернете можно найти достаточно много информации о ней. Но все равно информация о ней очень дисперсирована и не структурирована. С кем связана эта персона? С кем она чаще всего взаимодействует? В контексте каких тем персона чаще всего поднимается в интернете?

      Не обязательно чтобы эта персона была человеком. Было бы неплохо введя, например, название сериала “X-Files” получить информацию о том, кто в нем играет, какие персонажи там главные, какие основные объекты фильма (ФБР например;) ) и т.д.

      Развивая идею можно сказать, что очень замечательно бы было еще и иметь возможность мониторить все связи искомого объекта в реальном времени. А что? Не плохо было бы специалисту из отдела внутренней безопасности прийти на работу и увидеть извещение о том, что один из подопечных вдруг начал вести активную деятельность под своим “персональным” почтовым адресом на форуме конкурентов.
      И хоть последний абзац пока для нас является, так сказать, RoadMap-ом, то первые два уже можно считать явью и реализованными хоть в какой-то мере.
      Встречайте: Web Private Detective 1.0
    • Автоматизированный поиск фактов в тексте (метод «окон-фактов»)

        Сегодня мы будем говорить о том, как автоматизировать процесс анализа методом «Окон-Фактов». Об этом методе, к сожалению, достаточно мало информации, однако он остается одним из ключевых методов обработки информационных потоков. Более детально об анализе текста можно почерпнуть, например, тут. В общих чертах задача метода «Окон-фактов» сводится к поиску в тексте неоспоримых фактов. Но уточним, что же именно стоит понимать под фактом. 
        Читать дальше →
      • Podget + rsync + BashPod + GUI = KBashPod для подкастофилов

          Вступление


          В прошлой серии мы Вам рассказали о том, как собирались “убивать” FineReader. Однако это было далеко не первое начинание нашего дуэта. В этот раз центром нашего повествования станет программа KbashPod. Которая создана для пользователей Linux, постоянно прослушивающих подкасты на своем ПК и мобильных устройствах.

          Читать дальше →
        • KBookOCR for Linux. Убийца FineReader-а для Linux на начальной стадии

            Вступление


            Возможно каждый из нас переживал период в своей жизни который сопровождался активно оцифровкой аналогов материала. Я имею в виду необходимость работы с текстом из неоцифрованных источников. Имеется в виду не только проблема сканирования, но и так же множество материала который к сожалению доходит до конечного потребитель не совсем в пригодном для использования виде. И я думаю у каждого из нас очень часто в голове пробегали лестные мысли об распространителя книги в формате djvu или pdf в котором весь контент был представлен сугубо графически без возможности использование материалов для своей деятельности.
            Читать дальше →