Деанонимизация во всемирной сети — все ближе и ближе

    Хотя пока и не настолько близко, чтобы начать волноваться всерьез.
    На конференции 29C3 в Берлине аспирантами Университета Дрекселя (США) была представлена Альфа-версия JStylo — программного продукта, способного установить авторство текста с довольно высокой вероятностью. Уже давно ни для кого не секрет, что человек использует довольно ограниченный набор слов для повседневного общения, а профессия накладывает на этот набор определенный отпечаток. Программа анализирует сообщения в социальных сетях, электронные письма, сообщения форумов и твиты, и «примеряет» их к тексту, авторство которого необходимо установить. Особое внимание уделяется словам, которые используются не для описания предметов, а для выражения связи между ними.
    Пока функицонал программы довольно ограничен: поддерживается только английский язык, круг «подозреваемых» может быть ограничен только пятьюдесятью людьми, при этом на каждого из них должне быть собран материал в 6,5 тысяч слов, а длина текста, авторство которого необходимо установить — не менее 500 слов (по материалам NewYorkTimes).
    Эти же ребята трудятся и над другим инструментом — Anonymouth, который должен позволить «шифровать» сообщения, вводя в них нехарактерные речевые обороты.
    В будущем, когда функционал программы сможет принести реальную пользу, её планируют использовать для выявления авторов постов на различных тематических хакерских форумах.
    Поделиться публикацией

    Комментарии 38

      +13
      Каждому Йода мастер с форума такого поможет и бессилен продукт будет сей.

      А вообще довольно интересное исследование, которое в очередной раз заставляет каждого задуматься о своей «анонимности» в сети.
        +1
        да что уж тут гвооитрь, мжоно портсо бкувы прееаствялть и не паильтся
          +1
          Если так будете делать только вы, то очень даже палевно.
            0
            Делаешь разные методики маскировки на всех сайтах, где желательно остаться анонимным.
            А вы думали, nanotime предлагает одинаково переставлять буквы и на имиджбордах, и на сайте гос. услуг?
          +3
          Прогоните нужный текст через гуглопереводчик и обратно)
            +5
            Выполнить необходимый текст и обратно через gugloperevodchik

            DONE
          +2
          Ну и… результат этой программы можно будет использовать как улику в суде или в чем смысл вообще?
            +4
            Такие методы использовали для поиска автора Bitcoin — кого-то одного нашли, который открещивался, естественно, от своей причастности. (Об этом писали на Хабре в соответствующих темах в одной статье. Ализар, скорее всего, подскажет точную ссылку.)
              0
              В оперативно-розыскных мероприятиях — почему бы и нет? Из 50 подозреваемых найти одного, нагрянуть к нему с обыском, а там обнаружить и вполне адекватные улики, признаваемые судом. Санкцию на обыск одного человека получить проще.
            • НЛО прилетело и опубликовало эту надпись здесь
                0
                «Маргарита отступила и с достоинством ответила:
                — Пошел ты к чертовой матери. Какая я тебе Клодина? Ты смотри, с кем разговариваешь, — и, подумав мгновение, она прибавила к своей речи длинное непечатное ругательство. Все это произвело на легкомысленного толстяка отрезвляющее действие.»

                Вы про такие обороты?
                  +1
                  напомнило спам несколько летней давности, туда в начале письма вставлялась шутка, анекдот или цитата.
                  Я обычено после прочтения этого позитива письмо удалял, не читая. даже спамопапку проверял
                +5
                Вывод: Нужно больше читать разнообразной литературы (особенно художественной), тем самым увеличивая количество вариантов часто используемых выражений и оборотов.
                  +23
                  На фоне серых посредственностей ваше разнообразие сразу же бросится следователям в глаза :-)
                    +11
                    В какой-то момент окажется что с вероятностью 95% такое количество речевых оборотов не использует никто кроме вас:)
                    +4
                    Подозреваю, что алгоритм сломается на определенной прослойке населения, общающейся на 90% сленгом и его словоформами, так как разнообразием он (сленг) не отличается.
                      +11
                      «В результате работы программы было выявлено, что автор текста — один из пользователей ВКонтакте»
                        –1
                        Покажусь банальным, но тогда всеми любимый Президент, будет первым фигурантом у такой программы.
                          0
                          Его вычеслят по количеству «сортиров» в тексте.
                        +16
                        Пользуясь случаем, передаю привет Mithgol-у.
                        • НЛО прилетело и опубликовало эту надпись здесь
                            +1
                            У него могут быть подражатели.
                            0
                            Если захотят, так сделают анонимность незаконной. Примеры Китай(соцсети по паспортам, там недавно закон ввели, что даже в интернет кафе перед использованием интернета надо сфотографироваться), КНДР(интернет есть только у высоких чиновников, у остальных только доступ к интрасети).
                              0
                              Оба примера объединяет то, что им предшествовало практически полное отсутствие интернета в соответствующих обществах. Благодаря чему эти общества удается до сих пор водить за нос и убеждать, что так и надо. В западной же стране быстро поднимут шум и деанонимизация не пройдет. Она, как и цензура, не просто незаконна, а нелегитимна — то есть, больше не воспринимается самим обществом как что-то положительное и нужное. Или скорее так: общество обладает богатым и успешным опытом противостояния попыткам ее ввести.
                              +2
                              Автороведческий анализ — тема довольно старая (например, кто написал «Луку Мудищева»).

                              Эти ребята, скорее всего, просто автоматизируют процесс с помощью компьютера.
                              • НЛО прилетело и опубликовало эту надпись здесь
                                  +1
                                  В этом случае вполне вероятно, что отклоняться не только программы, но и все остальные.
                                  как было на самом деле
                                  В таком случае уж слишком велика вероятность, что собьются не только программы, но и все остальные.
                                  ==>
                                  In this case too it is likely that stray not only programs but also all the others.
                                  • НЛО прилетело и опубликовало эту надпись здесь
                                  +2
                                  Вспоминается словарь Эллочки Людоедочки, да и современная публика Вконтакте надежно защищена от таких проверок.
                                    –1
                                    ахаха)
                                    0
                                    Тема известна давно. Ещё лет 20 назад на кафедре была то ли курсовая, то ли дипломная работа, по сравнению текстов, с применением к подвтерждению авторства Тихого Дона.
                                    Иногда в сети используется умышленное искажение лингвистического «почерка», с ошибками, албанским и т.п.
                                      0
                                      Ну да, определят они, что текст писал Легион Анонимусов или луркофаг. И что, например? :)
                                      0
                                      О. немецкие студенты узнали про цепи Маркова?
                                        +1
                                        Такие статистические анализаторы авторства, тематики или плагиата строятся и уходят в небытие пачками.
                                        Определить авторство чистого текста — ДА, легко.
                                        Но если автор захочет скрыть факт авторства — он обойдет любой анализатор. Хотя бы поручив переработать текст своей подружке.
                                        0
                                        Сколько существует общеупотребимых слов и основанных на них фраз для выражения связи между предметами? По-моему, сильно ограниченное количество и велика вероятность найти несколько сотен, или десятков тысяч близнецов.
                                          +1
                                          За собой заметил, что даже за год сильно меняется манера писать.
                                          Когда-то увлекался албанским, теперь равнодушен.
                                          Меняется не только словарный запас, но и способы построения предложений, особенно когда сознательно меняешь текст («нафиг написал столько буков, это никто читать не будет, запишу лучше покороче»)

                                          Таким образом, посты автора в каком-то старом ЖЖ будут малоприменимы для анализа сегодняшних текстов.
                                            0
                                            Ну почему все сконцентрировались вокруг хакеров? Ведь авторам текстов, новостным сайтам это вообще незаменимый инструмент!
                                              +1
                                              > Эти же ребята трудятся и над другим инструментом — Anonymouth, который должен позволить «шифровать» сообщения, вводя в них нехарактерные речевые обороты

                                              Как-то странно получается. А потом они будут улучшать свой распознователь с учетом алгоритмов применяемых в анонимайзере? После чего новая версия анонимайзера который обходит новые фичи распознователя? Итак до бесконечности? Похоже, ребята продумали бизнес-план на пару десятилетий вперед. Похоже на историю с Касперским которого одно время обвиняли что он сам пишет вирусы

                                              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                              Самое читаемое