Создана новая эффективная технология идентификации авторов анонимной электронной почты



    Будет продолжать дневник или не будет – разницы никакой. Полиция мыслей и так и так до него доберется. Он совершил – и если бы не коснулся бумаги пером, все равно совершил бы – абсолютное преступление, содержащее в себе все остальные. Мыслепреступление – вот как оно называлось. Мыслепреступление нельзя скрывать вечно. Изворачиваться какое то время ты можешь, и даже не один год, но рано или поздно до тебя доберутся.

    Джордж Оруэлл, 1984


    Профессор университета Concordia (Монреаль, Канада) Бенджамин Фунг (Benjamin Fung — его персональная страница) создал новую эффективную технологию определения личности на основе текстов электронной почты, которая является доказанным экспертным заключением и может быть использована в суде.

    Доктор Фунг (профессор инженерных информационных систем) и его команда использовали методы, которые используются в распознавании речи и интеллектуальном анализе данных с целью выявления повторяющихся, т.е. отличительных особенностей комбинаций, которые повторяются в письмах подозреваемого.


    Анализируя такие характерные особенности как грамматические и(или) стилистические ошибки, регистр текста письма, манеру обращения, число и вид «смайликов», выравнивание текста и его объем, а также ряд других уникальных особенностей профессор Фунг утверждает, что с высокой вероятностью может определить пол, национальность, возраст, уровень образования автора электронного письма, что может быть весомым вкладом в процесс уникальной идентификации личности в отличие от её IP-адреса. Чтобы убедиться в эффективности новой техники, исследователи проанализировали Enron Email Dataset, который представляет собой коллекцию из более чем 200000 реальных писем от 158 сотрудников Enron Corporation.

    Таким образом, если вы хотите подшутить над коллегой, стесняетесь сказать девушке прямо о чем-то животрепещущем, хотите дать ненавязчивый совет или же вы просто спамер — то с высокой долей вероятности ФБР может приехать к вам домой уже через короткое время.

    Оригинал новости здесь.
    Share post

    Similar posts

    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 73

      +33
      Google Translate туда-сюда, и вуаля :)
        +13
        Профессор мыслит правильно. Но только в том случае, когда пациент не думает о будущем :)
        А так копируй куски сообщений с форумов и этот профессор первый пойдет покупать мыло душистое — «Это письмо писала группа агрессивных даунов»
          +7
          угу, принцип аналогичен записке склеенной из газетных обрезков, так любимой фильмами.
            +1
            Теоретически да. Практически чтобы учесть все трюки, необходимые для сокрытия личности, требуется очень много усилий. Учтет преступник это, зато провалится на другом. Это же все вероятностное, если работает в 80% случаев — уже очень и очень круто.
              +3
              Надо писать тексты на иностранном языке, потом перевод + корректировка «глупостей».
              К тому же, если я, допустим, пишу сообщение о выкупе, ну не буду я в нем использовать смайлики, выравнивания и, я надеюсь, ошибки ;)
                +9
                То, что вы напишете такой текст без ошибок, тоже будет кое-что означать :)
                Например для постсоветского пространства, если вы написали текст без ошибок, с вероятностью 75% вам больше 30 лет %)
                  +2
                  Фунг открыл для себя значение термина стилистика речи?
                  Да, существует стиль письма.

                  Но
                  «С вероятностью» и «является доказанным экспертным заключением и может быть использована в суде» две абсолютно разные вещи.

                  Это все полный бред.
                  Пусть сначала проанализирует не 158 сотрудников, а хотя бы миллион человек.
                  И не деловые письма, которые человек пишет в одной манере, а писанину одной личности — деловую, на хабре, вконтакте и на дваче.

                  И в конце концов, подделать такой «почерк» — как два пальца…
                  Бред.
                    0
                    «профессор Фунг утверждает, что с высокой вероятностью может определить пол, национальность, возраст, уровень образования автора» ©

                    В судах уже давно используют вероятностные доказательства, и, к сожалению, часто некорректно (см. доклад на TED{ www.ted.com/talks/peter_donnelly_shows_how_stats_fool_juries.html })

                    Подделать такой почерк труднее, чем кажется. Как и любые особенности поведения, основанные на том, что лежит за гранью сознания (а грамотность, язык, стилистика работают на подсознательном уровне)
                    +2
                    >если вы написали текст без ошибок, с вероятностью 75% вам больше 30 лет
                    Количество ошибок обычно зависит только от грамотности. Капитан Очевидность.
                      +3
                      А грамотность зависит от социально-экономической ситуации в государстве в период обучения в школе ;)
                        0
                        Т.е. ваш примерный возраст уже известен )
                      0
                      Или используете сервис проверки правописания.
                    0
                    Появится рынок текстовых анонимайзеров: скармливаешь ему текст, на выходе — он же, написанный «группой агрессивных даунов».
                    –1
                    Будешь ли ты копировать «куски с форумов» или еще откуда — всеравно предложения будешь составлять привычным для себя образом, теми же конструкциями, которые употребляешь в обычной своей речи. Именно поэтому такой метод «анонимизации» не даст эффекта
                    • UFO just landed and posted this here
                    +6
                    буквально вчера дочитал «Мисс Вайоминг» Дугласа Коупленда и там говорилось о системе ПОН:
                    «Проверка Ошибочных Написаний. ПОН основывалась на том, что все люди регулярно делают ошибки в одних и тех же словах, как бы хорошо они ни печатали. Образцы ошибочных написаний уникальны, как отпечатки пальцев, и кроме того, ПОН принимает в расчет образцы пунктуационных ошибок, ритм и скорость.
                    – Вводя данные, вы можете назваться кем угодно, но ПОН идентифицирует вас на примере двухсот пятидесяти слов. У этой программы такая чувствительная настройка, что она может узнать, не начались ли у вас месячные или не пора ли вам подстричь ногти на руках»
                      +1
                      што правдо? а йесли йа буду так песать тожи апредилит миня?
                        0
                        если вы будете всё время так писать, то и ошибки будете делать одинаковые.
                        Если не будете, то смысл в таком написании теряется
                        0
                        или не пора ли вам подстричь ногти на руках

                        интересно, каким же образом? :)
                          0
                          если собрать статистику, то можно заметить изменение ритма печати, например. Если оно какое-то время постоянное, то можно такое предположить
                        +4
                        Ну-ну… Хочется увидеть хотя бы один процесс с использованием идентификации личности по методу Фунга. Любой начинающий адвокат разобьёт все эти исследования в пух и прах.
                          +3
                          Анализ почты = косвенная улика -> нашли подозреваемого -> слежка + обыск + допрос = прямые улики.
                          Никто и не пойдет в суд только с этим анализом, что вы.
                            0
                            В статье как сказано?
                            создал новую эффективную технологию определения личности на основе текстов электронной почты, которая является доказанным экспертным заключением и может быть использована в суде.


                            Косвенных улик и так существует достаточно, тут позиционируется как экспертное заключение. Тем паче, что для проведения слежки и обыска только косвенных улик недостаточно (если по закону). Презумпция невиновности, знаете ли.
                              0
                              Ну так все правильно: позиционируется как экспертное заключение, а значит является достаточным средством для слежки и обыска ;)
                                +1
                                Ну-ну… Нет, ну я понимаю, если правительство КНР проспонсировало исследование и возьмёт разработку на вооружение, но в любой стране с нормальным правом такое не пройдёт.
                                  0
                                  А много ли стран с «нормальным правом»? Те же США многие называют «полицейским государством». Вполне может быть, что и не зря.
                                    0
                                    Трудно сказать. Судя по грантам, товарища здорово кормит Правительство Канады и NSERC. Но судя по именам выпускников и «любимой литературе» — не всё так просто :)

                                    Имхо — пиар и необходимость оправдать вложения. Хотя может и что-то большее.
                                    0
                                    В России 90х годов был случай, когда ловили-ловили преступника какого-то, и ДОКАЗАТЕЛЬСТВОМ в суде была лингвистическая экспертиза ТЕКСТА записей телефонного разговора (там были обсуждения планов убийства, или вымогательства). То есть, нельзя было по голосу определить он это говорит, или не он, однако выписав тексты на бумагу, эксперты дали заключение что все-таки он.

                                    Я не даю оценку, насколько эксперты были объективными, просто сам факт случая такого привел.
                                • UFO just landed and posted this here
                                    0
                                    У нас в обществе — религия денег. Так вот когда сумма будет определять виновного — тогда подтянутся и «наука» и «здравый смысл».

                                    Если в аєропорту задержат Васю Пупкина из Таганрога — это одно. А если сорвут полёт крупному лицу в крупной компании, который потом с армией адвокатов вкатит иск за это — это другое.

                                    Обидно только, что чем дальше, тем больше стираются границы между Наукой для знания и понимания и «наукой» для обеспечения притока бабла.
                                    • UFO just landed and posted this here
                              0
                              И еще сферу деятельности, она тоже заметно влияет на словарный запас и обороты речи
                                0
                                Да, кстати: в оригинале немного звание повысили, в переводе это повторилось. Согласно персональной страницы, Господин Фунг — Assistant Professor, это немного не профессор. Дословно — ассистент профессора, а наиболее близкое к нашему пониманию — доцент.
                                  +1
                                  Дословно: «помогающий профессор». Ассистент профессора назывался бы «Professor assistant».
                                  В нашем понимании — профессор на полставки.
                                    0
                                    Assistant professor — это действительно аналог доцента, такой себе «непрокачанный» профессор.
                                    –1
                                    Это профессор, который не преподает.
                                      0
                                      Профессор, который не преподает, называется research professor.
                                    +1
                                    На фотографии он похож на злодея
                                      +13
                                      Теперь спеллчекеры будут не только проверять ваш текст, но и предлагать сделать в нем ошибок в стиле домохозяйки, учителя математики или студента тех. университета. А также выводить комментарии в стиле «предупреждаем, что использование слова <хабрахабр> выдает вашу сферу интересов».
                                        –1
                                        Хорошая идея для стартапа.
                                        +1
                                        Профессор заново изобрел графологию. Молодец! Любой из тех, кто модерировал форум с анонимами и виртуалами, может с уверенностью сказать, что ежедневно пользовался новой импортной технологией профессора Фунга.
                                          0
                                          Графология это все-таки изучение почерка.
                                          А вот как называется определние автора на основе особенностей структуры текста я не знаю :(
                                            0
                                            Изучением особенностей почерка занимается почерковедение.

                                            А по-поводу стран с «ненормальным правом» — терморектальные методы никто не отменял и обвинительного уклона российскую уголовно-правовую систему никто не лишал (мало скажешь — мало дадут, ничего не скажешь — ничего не дадут).
                                              0
                                              Изучением почерка занимается и почерковедение и графология. Но с разными целями.
                                        • UFO just landed and posted this here
                                            +14
                                            Вы правильно написали: «что» вместо «чо», не зыбыли сторую «с» в слове «профессор», употребили слово «будучи» и даже(!) «филология» — вы явно не УмНеНЬкаЯ школьница :)
                                              +1
                                              Все таки, писать сообщения в стиле «уМнЕньКих школьниц», которые при этом содержат смысл — это какой-то особый вид искусства эзотерического плана)
                                                +1
                                                но вы далеко не явно ВОТ ЭТА КОНКРЕТНАЯ ЛИЧНОСТЬ!!!
                                                +3
                                                thesunbeam: А вод есле я буду песать таг: «Приффет! Как дилишги? Сюси-пуси» и т.п., делоть очинь-отчинь мноха ашыбак и упатриблять олбанцккий, — тагда я смагу сайти за бландинку-фкольнетсу-малаледку или какуюнить другую силёдку? Далжно жы уминя палучица, наканетс-та?

                                                ekkoni: Не-а. Настолько правильно писать по-албански может только человек, идеально знающий русский :) По-другому ТАК извратить русский язык невозможно ;) И потом, знаки препинания тебя выдают с головой: Р

                                                thesunbeam: Чёрт… Сафсем-сафсем нипалучицца? :'(

                                                ekkoni: *WALL* Маша!!! ты даже на албанском ухитряешься писать «цца» вместо «тся» и «ца» вместо «ться». Это неизлечимо…
                                                  0
                                                  когда я взгляд на вашу строчку перевел, меня аж на спинку стула откинуло!
                                                  +5
                                                  В ватикане разработали технологию определения личности на основе цвета волос, которая является доказанным экспертным заключением и может быть использована на суде инквизиции.
                                                    +10
                                                    Доказанный факт, подтверждаю. У рыжих, например, нет души.
                                                      +3
                                                      Не дала!?
                                                        +3
                                                        Ну почему же, дала. Это шутка из Саус Парка s09e11.
                                                        0
                                                        Светоходящий!
                                                      +1
                                                      ИМХО, бред полный.

                                                      Во-первых, необходимо иметь корпус текстов, гарантированно написанных полностью этим человеком. Чтобы его потом вычислить. Кроме того, метод совершенно неустойчив к противодействию.

                                                      Во-вторых, как говорится, в суде недоказуемо.

                                                      В-третьих, из самого текста письма (собственно, содержания послания) можно наделать умозаключений по авторству на порядок больше, чем на основе вероятностных паттернов ошибок, опечаток, пунктуации и т.д.

                                                      Короче, типичный псевдонаучный бред под гранты.
                                                      • UFO just landed and posted this here
                                                          0
                                                          Да нет. Все это давно известно и вполне работает. Непонятно, почему они «изобрели». Если бы «применили» или «добились признания в качестве доказательства».
                                                          +3
                                                          IMHO слишком серьезные заявления для системы, которая проверялась на 158 сотрудниках одной компании.
                                                            0
                                                            Единственное что я так и не понял — если у нас есть анонимное письмо — как найти кто именно на этой планете это написал?

                                                            Или допустим, что число «подозреваемых» ограничено, к примеру, списком сотрудников из 158 человек — то можно проанализировать их остальные письма для сравнения — но что если человек зная о существовании этой системы в анонимку понаставит отступов и смайликов со скобочками и специально допустит ошибки (или этот чувак начнет малявить по другому спецом?)
                                                              0
                                                              Как-то они неожиданно сделали открытие, с помощью которого уже очень давно определяют авторство книг.
                                                                0
                                                                Из источников как-то не совсем понятно что именно сделано. То ли они просто осознали, что это возможно (что уже давно знает каждый модератор, как кто-то упомянул выше), то ли разработали полностью систему определения, по которой уже можно писать софт и пользоваться ею автоматически.
                                                                  0
                                                                  Так вроде бы на основе цепей Маркова такие программы уже делали?
                                                                    0
                                                                    Я до этого не знал, но гугл намекает, что да.
                                                                    0
                                                                    Да, что сделано, не слишком показано, но ведь материал не научная статья, а всего лишь обычная новостная заметка, написанная наверняка неспециалистом.
                                                                    Пока ясно, что, в отличие от классических работ статистического определения автора по тексту, используются и другие признаки, специфические, например, для форумных постов.

                                                                    А модераторы так уж хорошо знают классические методы? Вроде бы, они, в основном, интуитивно определяют дублей.
                                                                      0
                                                                      Очень хочется надеяться, что сделаны именно научные выкладки, тогда и софт, который можно будет пощупать, не за горами.

                                                                      А про модераторов я и не говорил, что они осознанно пользуются какими-то методами, конечно же интуитивно :)
                                                                  0
                                                                  ну пускай вводят эту технологию, потом ФБР от троллей не отобьется)
                                                                    0
                                                                    ФСБ давно использует этот метод (наработки существовали еще со времен КГБ), а начался он с идентификации по телефонным переговорам и обычным письмам.
                                                                      0
                                                                      Эта задача вполне по плечу любому алгоритму классификации. Здесь самое интересное — сформулировать признаки, по которым проводится классификация.
                                                                        +1
                                                                        > Таким образом, если вы хотите подшутить над коллегой, стесняетесь сказать девушке прямо о чем-то животрепещущем, хотите дать ненавязчивый совет или же вы просто спамер

                                                                        … то найдите чужое письмо и старательно скопируйте стиль, ошибки и форматирование жертвы, которую вы подставите :)

                                                                        Ждем программ-дестилизаторов, обфусцирующих естественные тексты
                                                                          0
                                                                          нет ничего сложного подделать свой стиль письма, чтобы стать похожим на кого-то другого…

                                                                          у меня раньше был знакомый, с которым много общался по ICQ на тему литературы и программирования, а потом оказалось, что это знакомая…

                                                                          а в различных mmorpg играх, наоборот, часто бывает аватар женский, а играет мужчина (хотят нахаляву всяких шмоток и подарков от других игроков)

                                                                          на хабре, кстати, тоже знаю такое — ник мужской или нейтральный, пишет как мужчина, а на самом деле пишет девушка) делает так потому что хочет адекватной реакции на её сообщения, если бы писала как девушка — подлизывались бы или, наоборот, считали ТП — относительно девушек много предубеждений в обществе, к сожалению…

                                                                          вообщем, подобные программы легко обмануть, самый простой метод — представить в голове своего знакомого или знакомую, вспомнить её любимые фразы, манеру общению, реакцию в подобных ситуациях… если мужчина — то как правило чаще употребляют шаблонные ответы, стиль письма мужчин проще подделать, если девушка — то тоже могут быть какие-то любимые словечки… вообщем, не сложно, было бы желание и необходимость в этом…
                                                                          • UFO just landed and posted this here
                                                                              0
                                                                              придётся анонимусам теперь вместо текстовых сообщений размещать голосовые, созданные text-to-speech программами ;-)

                                                                              Only users with full accounts can post comments. Log in, please.