Вступление
Я не буду разводить параноидальные сказки о том, что NSA и ФСБ за всеми следит. Просто примем за базовый тезис, что tor и i2p — «наше всё». К сожалению, в контексте TORа часто можно слышать только про silkroad и детскую порнографию. Мол, рассадник, раскачивающий и покушающийся.
Я управляю несколькими tor-exit node'ами и i2p маршрутизаторами. Чтобы избежать вопросов, мой работодатель к ним не имеет никакого отношения: все эти ноды — исключительно за мой счёт, в свободное от работы время. Самой старой из них уже почти год, самой молодой — примерно 4 месяца. За это время я не получил ни одного abuse report'а (я сам работаю в хостинговом бизнесе, так что хорошо представляю себе процесс реакции на «абузу» — она в первую очередь пересылается клиенту).
Не смотря на отсутствие abuse'ов, вопрос оставался: для чего люди используют TOR?
Контроль над exit node'ой позволяет посмотреть на проходящий трафик. Понятно, что мы исключаем весь шифрованный трафик (TLS, SSH), а так же весь трафик на .onion узлы. Однако, среди остального мы можем посмотреть на примерное распределение ресурсов по популярности.
Забегая вперёд, слегка упрощённый ответ на вопрос статьи:
(более подробная табличка — в конце статьи)
Методология измерения
Использовались данные с нескольких exit nodes в России, Франции и Германии. Данные собирались в течение недели с помощью pcap, следующей строчкой:
while true;do tshark -i venet0 -O http -Y http.request -T fields -e http.request.full_uri >>http_log7;rm /tmp/wire*;done
(tshark глючен и периодически падает, для этого while/true. Взамен он извлекает URI из http-запросов в чистом виде)
Перед началом сбора данных все ноды «устоялись» примерно по три недели (с момента последнего перезапуска) и у всех tor выедал всю доступную ему полосу. Всего было записано 3.9 миллиона хитов, из них были выкинуты js/css/ico/xml файлы, осталось 3.7 миллиона.
Анализ
Я набросал простейший скрипт: github.com/amarao/url_prober для анализа.
Начнём с простого — топ посещений, топ доменов и т.д. Поскольку никакого трекинга пользователей не было, единственное, с чем мы можем оперировать — это число хитов.
Top10 самых посещаемых страниц (адрес, число, процент от общего количества):
cloud.tvigle.ru//img/zero_rkm_chk.gif 193330 hits, 5.73%
dmg.digitaltarget.ru 83905 hits, 2.48%
ib.adnxs.com/getuid 65007 hits, 1.93%
stat.tvigle.ru/track 42513 hits, 1.26%
asg.vidigital.ru 31966 hits, 0.95%
www.google-analytics.com/__utm.gif 31259 hits, 0.93%
advombat.ru/api/id 23363 hits, 0.69%
x.ulogix.ru/match/digitaltarget 23040 hits, 0.68%
blurb.vidigital.ru 22726 hits, 0.67%
tags.bluekai.com/site/5400 22488 hits, 0.67%
Как мы видим, самые частые страницы — служебные и связанные со слежением за пользователями рекламными сетями — ничего интересного.
Дальше идёт top11 доменов с top'ом страниц домена:
cloud.tvigle.ru (243405 hits, 7.21%) http://cloud.tvigle.ru//img/zero_rkm_chk.gif 193330 http://cloud.tvigle.ru/api/player/46/ 18696 photo.tvigle.ru (116943 hits, 3.46%) http://photo.tvigle.ru/resource/rf/flv_lst/232904/src.jpg 1696 http://photo.tvigle.ru/resource/rf/flv_lst/232899/src.jpg 1602 mc.yandex.ru (110897 hits, 3.28%) http://mc.yandex.ru/watch/219670 15381 http://mc.yandex.ru/watch/27181436 15212 www.tns-counter.ru (107708 hits, 3.19%) http://www.tns-counter.ru/V13a***R%3Ehttp://forum.kinomania.ru/showthread.php 792 http://www.tns-counter.ru/V13a***R%3Ehttp://brandcase.info/auto/index.php 153 ib.adnxs.com (91854 hits, 2.72%) http://ib.adnxs.com/getuid 65007 http://ib.adnxs.com/ttj 14706 asg.vidigital.ru (79994 hits, 2.37%) http://asg.vidigital.ru/ 31966 http://asg.vidigital.ru/1/3414/c/v/2 7688 bcp.crwdcntrl.net (44450 hits, 1.32%) http://bcp.crwdcntrl.net/5/c=2962 22309 http://bcp.crwdcntrl.net/5/ct=y/c=2962 1377 www.google-analytics.com (44145 hits, 1.31%) http://www.google-analytics.com/__utm.gif 31259 http://www.google-analytics.com/collect 11003 ad.adriver.ru (44087 hits, 1.31%) http://ad.adriver.ru/cgi-bin/merle.cgi 22142 http://ad.adriver.ru/cgi-bin/rle.cgi 9378 stat.tvigle.ru (42514 hits, 1.26%) http://stat.tvigle.ru/track/ 42513 htthttp://stat.tvigle.ru/track/ 1 vk.com (38796 hits, 1.15%) http://vk.com/share.php 9811 http://vk.com/widget_community.php 9744 http://vk.com/al_photos.php 6214
Опять в топе сплошные банерные сети и трекеры, за редким исключением в виде vk.com (социальная сеть) и tvigle.ru (онлайн-кинотеатр). Ради vk.com мне даже пришлось сделать top11, а не top10.
Так дело не пойдёт. А что люди _смотрят_? Легенда говорит, что там должен быть экстримизм, суицид, наркотики, котки, поркотики, детская порнография, оппозиционеры и прочие запрещённые вещи. Что ж, top-метод не работает. Давайте поступим иначе:
Возмьём все ресурсы, на домены которых было хотя бы несколько десятков обращений (например, 10), выберем из них примерно 300 и сделаем по каждому из них выборку страниц, на которые заходили хотя бы несколько раз (больше 1). Возьмём этих страниц хотя бы штуки 4 (для каждого подошедшего домена), попробуем классифицировать их вручную. Это даст нам статистическое представление о том, на каких сайтах бывали пользователи.
Дальше начинается самое интересное. Я вручную отсмотрел эту 300 случайно отобранных ссылок. Сами ссылки, с минимальной модерацией (забитые url'ы в случае клинической опасности takedown'а) можно посмотреть тут.
Ушло у меня на этот процесс порядка недели. Задача эта оказалась сложнее, чем кажется, потому что как вы будете классифицировать бразильский сайт без английской версии, посвящённый непонятно чему? Плюс, вы не поверите, насколько скучно отсматривать сайты, которые не интересно. Сначала я хотел сделать выборку из 500 сайтов, но на двухсотом сайте я полностью выдохся, так что триста — это мой личный героический подвиг. Не смотря на то, что отсмотренных результатов всего 300, это случайная выборка среди «посещаемых» узлов в течение недели, причём нормализованная по домену — то есть кратковременные всплески популярности на выборке не должны были значительно повлиять на результат.
Ниже приводятся результаты классификации. Они могут показаться слишком крупно сгруппированными, но мне действительно было не интересно разбирать по категориям разные интернет-магазины тортиков и сумочек.
Полный ссылок отсмотренного, вместе со скриптом для рандомной выборки, выложен тут.
Категория | Процентов |
Порнография обыкновенная | 11.0% |
Корпоративные сайты | 11.0% |
Интернет-магазины | 7.3% |
Новостные сайты | 7.0% |
HTTP-based API | 7.7% |
Блоги, форумы, BBS | 6.7% |
Реклама и баннерные сети | 5.7% |
Фильмы, видео (кроме трекеров) | 3.7% |
Социальные сети | 3.3% |
Хостинговые услуги | 3.3% |
Программное обеспечение | 3.0% |
Попытки взлома сайтов | 3.0% |
Автомобили | 3.0% |
Хостинг изображений или файлов | 2.7% |
Игры | 2.7% |
Страницы для поисковиков (SEO) и landing'и. | 2.3% |
Страницы с информацией разного (невинного) вида | 2.3% |
Спорт и путешествия | 1.7% |
Недвижимость | 1.7% |
Хобби | 1.7% |
Религия и эзотерика (включая сайты культов) | 1.3% |
Прочее (goverment, dating, instant messaging, torrents, по 1 шт каждое) | 1.3% |
Музыка и аудиокниги | 1.3% |
Сайты с malware и откровенно мошеннические | 1.3% |
Сайты с вакансиями | 1.3% |
Детская порнография | 0.7% |
Веб-почта | 0.7% |
Сайты медицинских организаций | 0.7% |
Образовательные сайты | 0.7% |
Замечания: в категории «корпоративные сайты» и «интернет-магазины» попали только сайты с невинным контентом к которому нет никакой претензии. Так как мне не встретилось ни одного сайта с нелегальными товарами, то категорий «сайты наркотиков», «поддельные документы», «оружие» и «работорговля» в списке выше отсутствуют.
Выводы
- Большая часть интернет-ресурсов (белой его части), которые посещают через TOR не имеет под собой никакой криминальной составляющей и мало отличается от обычного сёрфинга.
- Заметная часть трафика посвящена вопросам размножения homo sapiens.
- В белых интернетах до сих пор осталось CP, но его доля в посещениях — меньше процента.
- TOR может использоваться и используется для проведения атак на сайты
- Наркотиков и нелегальных субстанций, оружия, взывчатки и т.д. найдено не было.
- Политическая активность в TOR'е почти отсутствует.
Я немного недоумевал, зачем люди используют TOR для заказа тортиков в интернет-магазине, но коллеги с работы мне подсказали — некоторые включают TOR на домашнем роутере и используют его «для всего», то есть через TOR проходит обычный бытовой трафик домашнего пользователя.
Повторю ещё раз, в рассчёт брались только http-трафик, на который ходят из exit-nodes. За кадром остались все onion-сайты и не-http трафик в белый интернет.
P. S. Если вы не используете HTTPS, то любой оператор exit-node может видеть весь ваш «белый» трафик, включая куки и пароли.
UPD: В связи с многочисленными вопросами о не-включении .onion-сайтов в выборку, komachi подсказал ссылку на публикацию www.dailydot.com/politics/tor-dark-net-study-size, в которой говорится о том, что скрытые сайты занимают порядка 3.4% от общего объёма трафика.