Comments 247
я выкачиваю несколько Tb в месяц — извольте хранить.
Дуры нужны здоровые, но они есть, и стоимость подъёмная. Увеличивайте мой расчёт в три раза — будет копия рунета на 2 года со всем контентом.
А вы так говорите, будто наоборот.
во первых, сделать зеркало интернета на миллиарды страниц — это задача крайне сложная, и тут не только hdd понадобятся, но и крутое железо с кучей памяти. добавлять новое, проверять на уникальность — геморой страшный.
во вторых, сайты будут не копиями — залогинился где-нибудь, всё, новый контент — нужно хранить всю копию. ротация банеров? — хранить все. js подгружаемая каруселька — хранить. diff делать не получится.
я как раз профессионально занимаюсь web crawling'ом и скажу, что нужно будет дохренища ресурсов для любой дедупликации в таких маштабах. проще хранить всё.
4.1. Организатор распространения информации в сети «Интернет» обязан при использовании для приема, передачи, доставки и (или) обработки электронных сообщений пользователей сети «Интернет» дополнительного кодирования электронных сообщений и (или) при предоставлении пользователям сети «Интернет» возможности дополнительного кодирования электронных сообщений представлять в федеральный орган исполнительной власти в области обеспечения безопасности информацию, необходимую для декодирования принимаемых, передаваемых, доставляемых и (или) обрабатываемых электронных сообщений.
Так что нет смысла запрещать шифрование, раз уж «органы» могут запросить мастер-ключи.
Уверен — аудитория вконтакте примерно равна аудитории почтовых сервисов рунета. А это 50+ млн. человек. Значит, остальных ловить сложнее — их ящики вне страны, но уже три года как и их ящики страна просит размещать на своей территории. Понятно, зачем.
Но бесконечные Re:RE:RE — каждый ответ — новый документ (HTML или RTF), который форматируется почтовым клиентом по своему усмотрению. Например, переписка между the bat и outlook может не иметь существенных общих частей, т.к. документ со всеми цитатами заново формируется из модели текста в редакторе почтового клиента.
Но опять же, плюс-минус весь мейл.ру внутри себя дедуплицируется, ямейл — так же и т.д., а это дисконт на объём раз в 50.
Остаётся интерконнекшен. Но и тут можно спокойно ставить отсечку — письма до 50 мб реально пересылаются, остальные — в виде линков на файлы в облаке.
— хранить данные переписки — это их основная функция
— всё происходит целиком на их оборудовании
— данные не зашифрованы
— не меняются со временем
Если бы закон относился ТОЛЬКО к сервисам, тогда ещё можно понять, все эти функции у них и так есть. Но у провайдеров ни одной из этих функций изначально нет, да и объёмы больше на порядки. Следовательно, нет ни инфраструктуры, ни готового софта, ни опыта ни специалистов. И в короткое время в нужном объёме их взять тупо неоткуда.
нет ни инфраструктуры, ни готового софта, ни опыта ни специалистов. И в короткое время в нужном объёме их взять тупо неоткуда
Как и неоткуда взять триллион.
Вот и посмотрим, что будет. У поправок этого июля другая задача: создать прецедент юридической легитимности требования, чтобы сервис был. А вот как им распорядится Правительство — туманно.
Вы просто посчитайте, сколько ГБ фото вы делаете в год (они наверняка в облаке). А прогресс дошагал и до 4к видео даже не на флагманах. И ведь тоже в облаке, да? Даже если СЕГОДНЯ нет, то условно ЗАВТРА уже все будут использовать облачные хранилища и делать контента на 10 ГБ в год.
И вы их сначала зальете шифрованными (опять же, сегодня еще не все, а завтра уже все будут с шифрованием), а потом скачаете (тоже шифрованными).
По сравнению с этим трафиком, хранение разговоров и переписки — капля в море. А это все нужно еще с бэкапами, по всем правилам.
А ведь именно среди фото и видео в случае чего будут искать детское порно и съемку секретных объектов (ну ведь борьба с педофелией и экстремизмом...). А еще, вы наверное решите поделиться частью этих фото с публикой vk/fb/tw/etc — там же https.
Итого имеем уникалный шифрованный контент, дедупликацию даже при всем желании за уши не притянуть, как я понимаю…
Вы просто посчитайте, сколько ГБ фото вы делаете в год (они наверняка в облаке). А прогресс дошагал и до 4к видео даже не на флагманах. И ведь тоже в облаке, да? Даже если СЕГОДНЯ нет, то условно ЗАВТРА уже все будут использовать облачные хранилища и делать контента на 10 ГБ в год.
Ок, мне не хочется искать этот известный мем в виде скриншота расчётов про пенсионные отчисления, где 140 млн. успешно структурированы до 1 млн. активных граждан, а остальные — иждивенцы разных мастей.
Просто напомню о нём для иллюстрации идеи: те, кто регулярно делает много фото, пользуется облаками за деньги (а не 25 гб в год даром), умеет это всё настраивать под себя, ценит 4k видео и заработал на телевизор ценой в 150+ килорублей, чтобы его с удовольствием посмотреть — их если 2-3% от численности населения наберётся, то хорошо.
Это пренебрежимо малое количество трафика. Но заметное с остальной «тишиной в эфире» от лишь потребляющих контент представителей большинства.
Разубедите — пересчитаю, ерунда :)
Операторы связи обязаны хранить на территории Российской Федерации (...) текстовые сообщения пользователей услугами связи, голосовую информацию, изображения, звуки, видео-, иные сообщения пользователей услугами связи — до шести месяцев с момента окончания их приема, передачи, доставки и (или) обработки. Порядок, сроки и объем хранения указанной в настоящем подпункте информации устанавливаются Правительством Российской Федерации.
Я вот это «изображения, звуки, видео-, иные сообщения пользователей услугами связи» читаю не как «скачал», а как «такой контент пользователь куда-то выдал».
Или все-таки будут смотреть как написано в законе?
Вот когда полная анархия без трекера — тогда да, трафик подпадает под закон.
• Запретить шифрование вообще (ну или разрешать только по спецразрешению получаемую у ФСБ, короче запретить);
• Запретить проксирование, тунели и прочее;
• Определить операторов сервисов, скажем заставить Дурова запустить сервис текстовых сообщений и заставить всех пользоваться только им, по почте запустить единый сервис и доверить его Почте России и опять же заставить пользоваться только им; и так далее в том же русле;
• и дальше все в таком же русле
и все получиться.
Основная проблема в том, что требуют хранить определенные виды трафика, но вот для провайдера выделить их из общей массы трафика (по большей части шифрованного) невозможно, поэтому нам придется хранить весь трафик.
На примере ютуба: если ключи будут переданы правительству и ютуб обяжется хранить и предоставлять информацию в владельцах загруженного контента, то провайдерам эти ключи никто передавать не будет, поэтому мы имея доступ к шифрованному трафику не сможем различить видео ли опубликовал пользователь или комментарий написал.
И еще на примере 152 закона, прошло несколько лет с момента его принятия, и до сих пор нет договоренности о сотрудничестве РКН с крупными порталами (ютуб, вк, ок, гитхаю, с3), поэтому до сих пор операторы вынуждены блокировать ссылки на своей стороне (а в случае шифрованного трафика, блокируем по IP).
ЗЫ Готовьтесь к возврату в начало 2000, когда трафик стоил по 5 рублей за мегабайт, к этому все идет.
И еще на примере 152 закона, прошло несколько лет с момента его принятия, и до сих пор нет договоренности о сотрудничестве РКН с крупными порталами
И не будет. Они ж американские, а мы с ними не дружили никогда, и особенно, теперь.
Готовьтесь к возврату в начало 2000, когда трафик стоил по 5 рублей за мегабайт, к этому все идет.
Я бы не омрачался раньше времени. Мне тут в офисе Билайна недавно продавец шепнул, что«Мегафон 5G разворачивать начал..», ну какие там 5р/Мб на таких скоростях? Нонсенс.
Итого, ооочень грубо, для такого не самого активного, пользователя получаем порядка 40-46Гб. Можем даже скостить чуть-чуть и округлить до 40.
40Гб на 85% (от всех жителей) пользователей интернета, сиходя из 140млн жителей получаем 4 760Гб в месяц. Умножим на 6 и получим 28 560 Гб за полгода.
Это очень грубо. Плюс это сырые данные. А для их обработки надо их систематизировать. Ну и не забыть резервную копию :) В общем ждем быструю отечественную СУБД для обработки такого объема данных. Заодно систему их систематизации и анализа. На одной только обработке этих данных можно сделать бизнес повкуснее Палантира.
Входящий трафик 353 ГБ
Исходящий трафик 1090 ГБ
«40-45Гб трафика в месяц» — это ж только 1 фильм. Два, если BDRemux.
Суйте свой трафик в VPN. Оператор знает, где выход этой «кротовьей норы». Он отдаёт маршрут кому следует. И если на той стороне трекер — понятен и контент.
Я за «умный анализ» поведения в этом законе. Иначе это жесть получается тупая :)
Я бы приравнял это к экстремизму, противодействию органам власти или даже
Статья 294. Воспрепятствование осуществлению правосудия и производству предварительного расследования.
А при ценах на VPS можно вообще хоть пять адресов завести из которых три выходных будут в разных странах.
И если на той стороне трекер — понятен и контент
Обмен с трекером — это поиск пиров, сущие килобайты. Основной объём — обмен с пирами и тут ненадедуплицируешь, потому что
1) зашифровано
2) нужно составлять не только базу торрент-файлов, а базу сегментов каждого торрента
Но это не отменяет того, что нормы прописанные в законе — абсурд абсурднейший.
Единственное, на что следует обратить внимание:
Порядок, сроки и объем хранения указанной в настоящем подпункте информации устанавливаются Правительством Российской Федерации.
А правительство РФ выступало против принятия данного закона.
Со 140 млн. вы явно переборщили. У нас нет стольких пользователей. Думаю, что в 2016 года эта цифра будет около 90 млн.
Так я пишу именно о 90 млн. :) Видите — «по ощущениям» мы одну цифру назвали.
Ну и час голоса в 10 мб это вообще пушка — разобрать можно только если очень захотеть.
Ну и час голоса в 10 мб это вообще пушка — разобрать можно только если очень захотеть.
Нормально всё разобрать можно. Вот когда в 3 мб переживают (т.н. «эффект бульканья») — тогда да.
Картинки не посчитали, видео тоже. Нифига не верный расчет. Да и сами интернет странички нифига не легкие сейчас.
А зачем картинки скачивать? Или видео? Нужны логи действий и линки на источник. Контент не нужен.
сколько источников трафика по умолчанию включили https в % от всего объёма трафика?
У меня этих данных нет, к сожалению.
https://statoperator.com/research/https-usage-statistics-on-top-websites/
Но надо учитывать, что в это относительно небольшое число входят такие монстры как YouTube, Facebook, Instagram, Google и прочие крупнейшие мировые веб-сервисы – «тяжёлого» контента там тонны и тонны…
Это именно тот пользовательский трафик, который идёт к провайдеру – «внутренняя кухня» самих сервисов провайдеру совершенно недоступна, думаю (как и нам, впрочем)).
Но у ютьюба есть особенность в том, что видео раздаётся с CDN, которые стоят у крупных провайдеров. Т.е. они могут знать, что именно отдают клиенту. Например у меня видео приходит с сервера 188.234.130.206, судя по базе, это Санкт-Петербург, домен резолвится в net130.234.188-206.ertelecom.ru.
Думаю, на российские серверы «скидываются» лишь видео, наиболее популярные именно в России (по правилам логистики). Но даже в этом случае далеко не факт, что сам запрос ведёт напрямую на российский сервер, а не через общую систему (со всеми вытекающими). Как и не факт, что российские «хост-субподрядчики» YouTube владеют информацией об источнике запроса.
В случае шифрованного — нет проблем, учтём в расчёте.
Но сколько этих VPN-пользователей с невскрываемыми данными в общем объёме трафика населения России?
Я думаю, какие-то проценты, а не все.
2. Завтра я картинку удалю, что вы будете с сылкой делать?
2. Я ничего. Нейросеть аналитики антитеррора — тоже. Сходит в источник, определит косвенные признаки окраса тамошних картинок и поставит крыжик «нормально». Или «не нормально, там призывают к чему-то плохому».
Это ж не архив, а пища для автоматической ищейки.
текстовые сообщения пользователей услугами связи, голосовую
информацию, изображения, звуки, видео-, иные сообщения пользователей
услугами связи — до шести месяцев с момента окончания их приема,
передачи, доставки и (или) обработки
Тут не указано, что обязательно «от пользователя к пользователю». Тут сказано «пользователя» да еще и в любом направлении — «передачи, доставки и (или) обработки».
Так что извольте хранить вообще всё. В том числе и котиков гуляющих табунами по https.
Какое ее состояние будет храниться как «источник»?
…
2) текстовые сообщения пользователей услугами связи, голосовую информацию, изображения, звуки, видео-, иные сообщения пользователей услугами связи — до шести месяцев с момента окончания их приема, передачи, доставки и (или) обработки. Порядок, сроки и объем хранения указанной в настоящем подпункте информации устанавливаются Правительством Российской Федерации.»;
Линки не всегда живут долго.
Например, ютубовское или ФБ-видео оператору точно придётся кэшировать, поскольку это видео всегда можно удалить (с «родными» ВК или ОК ещё как-то могут договориться)).
Да и вообще, удалён может быть любой источник. Даже в поисковиках кэш хранится гораздо менее полугода, насколько помню.
А уж в случае с видеозвонками или пересылкой картинок в мессенджерах – и подавно придётся кэшировать весь поток. Не говоря уж о SnapChat и прочих Periscope…
Контент не нужен
Представьте, скачали вы с сайта «детскийжурналвесёлыекаритнки.ру» (или залили на него) файл «neznaika.gif», на котором Незнайка читает книжку. А через месяц, когда вами заинтересовались внутренние органы, на том же сайте по той же ссылке Незнайка с Синеглазкой вовсю нарушают другой недавно принятый закон.
А если источник по сохранненому линку при каждом запросе выдает разные данные? И картинка по одному и тому же аресу разная и видео…
разница-то грандиозная
Разница примерно в 100-300 раз с расчётом. И тогда моя гипотеза не соответствует реальности.
Суть этого закона в том, что если надо расследовать какое-то событие УЖЕ ПРОИЗОШЕДШЕЕ, то можно поднять всю коммуникацию конкретного человека за последние полгода, когда он, может быть, еще и не предполагал, что может как-то заинтересовать органы, и в его переписке, посещаемых сайтах и т.п. накопать, что конкретно он читал, с кем и о чем общался и т.п.
Хорошо бы написать программу которая будет создавать псевдофайлы по несколько ггб — шум всякий — шифровать его и передавать по пи2пи другим васям пупкиным. Будут хранить 3 года. и пытаться расшифровать. Вопрос — что произойдет если им расшифровать не удастся? У меня есть смутные подозрения на это счет. которые как-бы не радуют.
Ок, по умолчанию ютьюб и кто там ещё, о, gmail — на https, но это не 100% источников трафика, а какой-то процент.
Записываем в допущения. Всё равно нет триллиона :)
Вон выше в комменте уважаемого Garruz сказано, что:
HTTPS в целом используют около 10% сайтов:
https://statoperator.com/research/https-usage-statistics-on-top-websites/
Но надо учитывать, что в это относительно небольшое число входят такие монстры как YouTube, Facebook, Instagram, Google и прочие крупнейшие мировые веб-сервисы – «тяжёлого» контента там тонны и тонны…
Ты пойми одно, чувак: никто и никогда не создаст такой мегазаказ рынку вычислений и хранения, кроме государства. А раз это нужно государству (даже путь государство это ВВП), то, вероятно, и технику обяжут ставить локализованную, и операторов таких SuperBigData DC c сделают русских. Это десятки тысяч рабочих мест и сотни сложнейших задач, которые надо будет решить, чтобы это всё анализировать.
Тысячи бесполезных рабочих мест мы уже проходили. Были по стране разбросаны тысячи КБ. И вроде все люди при деле там были — и на работу ходили каждый день, и отчеты писали… Только вот большая часть этих КБ занималась передовыми разработками типа «создание новой формы сиденья унитаза». Чем тратить деньги на бесполезные вещи, проще их сжечь.
По поводу локализованной техники. Назовите, пожалуйста, хотя бы пару отечественных производителей HDD, ленточек и SSD. Дедупликацию (которая тут так горячо обсуждается) на чем обсчитывать будете? Кластера из Байкалов и Эльбрусов строить?
вот большая часть этих КБ занималась передовыми разработками типа «создание новой формы сиденья унитаза»
Это вы свечку подержали и, наверное, уже лет 60+ вам, раз так уверенно рассказываете?
Я вот знаю пару сотен весьма бодрых стариков из таких вот КБ и они занимались такими вещами, что даже сейчас никому не догнать.
Проблема в том, что даже их заказчикам догнать не удавалось, вот и лежит под сукном.
Назовите, пожалуйста, хотя бы пару отечественных производителей HDD, ленточек и SSD.
Сборщиков — назову. А производить это не надо — Китай зачем отстроили? Пусть работают, им заказы нужны.
Дедупликацию (которая тут так горячо обсуждается) на чем обсчитывать будете? Кластера из Байкалов и Эльбрусов строить?
Возьму математиков (их есть и нормально есть), добавлю студентов, и через 5 лет оно будет считаться, появится заказ на спецпроцессоры, который будет таким большим, что ценник на байкалы и прочие эльбрусы упадёт наконец до $5/шт. и в стране появится собственная микроэлектроника.
Пусть они хоть молекулы выдыхаемого воздуха считают. Главное, чтобы все технологии и науку производили в нашей стране. А материальное производство — ок, в Поднебесной. Для гражданских целей они очень даже подходят.
Как именно госзаказ на узкоспециализированный ASIC сделает остальные процессоры дешевле, и как именно производство этого добра в Китае поспособствует развитию микроэлектроники в России?
Собственно, я вообще не понимаю откуда раз за разом появляются идеи о превозмогании и шапкозакидательстве. Мол, со студентами быстро догоним и перегоним компании у которых годовой оборот в пять выше бюджета всей российской науки, а штат инженеров и ученых формировался десятилетиями, путем приглашения лучших специалистов со всего мира.
Как именно госзаказ на узкоспециализированный ASIC сделает остальные процессоры дешевле, и как именно производство этого добра в Китае поспособствует развитию микроэлектроники в России?
Это большой разговор, и он не относится к данному топику. Если хотите, я изложу его отдельной публикацией. Кармы пока хватает :)
Мол, со студентами быстро догоним и перегоним компании у которых годовой оборот в пять выше бюджета всей российской науки, а штат инженеров и ученых формировался десятилетиями, путем приглашения лучших специалистов со всего мира.
Спин-оффы работают во всём мире, почему бы им не заработать у нас?
А бюджет на науку он разный. И на ту, которая нужна стране, бюджет есть.
Могу сказать в эфире только то, что проблема сейчас не с учёными и изобретениями, а с инженерами — прикладными конструкторами. Но эту задачу уже начали решать. И спин-оффы — один из способов.
Они есть, но их надо в 1000 раз больше.
А производить это не надо — Китай зачем отстроили? Пусть работают, им заказы нужны.
«Минпромторгу России совместно с Минкомсвязи России провести анализ и представить предложения в части возможности, сроков и объёмов финансовых затрат в целях организации производства отечественного оборудования и создания отечественного программного обеспечения, необходимого для хранения и обработки голосовой информации, письменного текста, изображений, звуков, видео- или иных электронных сообщений пользователей сети Интернет и информации об этих пользователях, с указанием конкретных производственных площадок в Российской Федерации.»
Возьму математиков (их есть и нормально есть), добавлю студентов, и через 5 лет оно будет считаться, появится заказ на спецпроцессоры, который будет таким большим, что ценник на байкалы и прочие эльбрусы упадёт наконец до $5/шт.
Фиг с ним, что Интел, который этим занимается не первый день, это не могет, а мы сможем. Вы вообще в курсе сколько занимает один цикл разработки мк? Где у нас есть линия для его сборки?
в стране появится собственная микроэлектроника.
К вам Хоттабыч не заходил?
И вообще — можно что-то именно развивать и во что-то вкладываться, а не тратить на бессмысленное кучу денег?
Минпромторгу России совместно с Минкомсвязи России...
Ну вот видите, поручили — значит, скажут что нет. Или скажут, что построят. Им же только кинь кость — по локоть откусят.
Могли бы мы представить ещё год назад, что государству серьёзно понадобится своя микроэлектроника? Я ликую, читая такие поручения Правительства.
Вы вообще в курсе сколько занимает один цикл разработки мк? Где у нас есть линия для его сборки?
В курсе, тут даже писал один добрый человек, что повторить размеры Intel это примерно 20 лет и $30 млрд. это стоит, но и тогда опоздаем. Это если делать по нынешней технологии. А у неё уже закат.
Вот о памяти, например, 3D-XPoint, слышали? Интел выпустит скоро. В 1000 раз быстрее NAND, энергонезависимая, все дела. Там ещё голографическая почти допилена, а это уже прям как у Кира Булычёва — кристалл со всеми знаниями человечества. Так вот, это — будущее. А процессоры на кристаллах — прошлое. И в том же МПТ стопками лежат изобретения производить их другими способами. Просто разрешения не было, ибо Большой Брат велел следовать культу карго. А теперь разрешение есть. И это офигенно.
И вообще — можно что-то именно развивать и во что-то вкладываться, а не тратить на бессмысленное кучу денег?
Ну я же не Никифоров и не Мантуров, их спросите. В этой истории очень много политики, вот мой ответ. Чисто взять и сделать — наверное, нельзя. Но ситуация с каждым днём становится лучше. Читайте новости тут.
Неуловимый Джо.
Bytes In Bytes Out
71979669991 22191042279
Если правильно подсчитал, то получилось что-то около 88Гб. И что я делал за эти 2 дня? Да в общем ничего, посмотрел несколько видео, зарегистрировался на курсы ccna там тоже было видео, обновилась mmo'шка одна сегодня (0,5gb правда был апдейт), почитал хабр, гиктаймс и еще один сайт. Да вот вобщем и все. При этом учтите, что вчера с ~17:00 и до 10:00 сегодня у меня небыло интернета.
88ГБ практически за два дня. Черт, аж грустно стало… раньше за 88GB убить можно было…
И это только я, а что с энтерпрайз-сегментом?
И это только я, а что с энтерпрайз-сегментом?
Думаю, что 97% ваших 88 Гб это про «посмотрел несколько видео».
В энтерпрайзе видео не смотрят. Сёрф и почта. Это в 1000 раз меньшие объёмы.
Требуется хранить весь зашифрованный трафик, поскольку что в нем и откуда — неизвестно и нет возможности выяснить. И расшифровать нет возможности, поскольку сложных ключей скорее всего уже даже у получателя нет. Но вы там держитесь, здоровья вам, раз у вас всё так просто.
Но даже если весь трафик надо хранить (вот специально сижу перечитываю, не вижу ни слова про весь), берём ленты вместо дисков.
И 1 Гб становится уже не по 90 центов, а по 3. А с учётом роботизированной библиотеки (железяка, софт, внедрение) — максимум доллар.
Просто на лентах всё медленно, это адресное хранение с низкой скоростью доступа. Придётся ставить flash-СХД для содержания индекса, а какой там индекс, если всё шифровано, только если адреса да пользователей с таймстампами хранить. Ну всё равно это не те деньги. Нет там триллиона, даже если всё писать.
Я как написал:
— 0.9 доллара на носитель
— 2 доллара на аппарат и внедрение
Вот эти два доллара и учитывают инфраструктуру.
А в целом про невозможность испечь такой пирожок, вот вам факты:
— яндекс и гугл хранят ВЕСЬ интернет, слепки чаще раза в сутки
— youtube хранит 60% всего видео
— UGC занимает 70% трафика мобильных операторов и это сравнимо с youtube
Они ж где-то себе купили хранилки. И не потратили триллион :)
Сравнение некорректно. То есть это просто не аргумент, что кто-то что-то хранит. Что, какие объемы, с каким сжатием? А тут расчет идет на пользователя, я, к примеру, 10-15 гигов стационарно потребляю и 3-5 мобильно. Все шифрованные. Грубо говоря 100 гигов носителя на меня надо, но как с надежностью? А то и 200 понадобится. Вот вам на 25 миллионов таких, как я, уже по вашим расчетам триллион вынь да положь.
Вот пример того, что продают сейчас: https://www-03.ibm.com/systems/storage/tape/
И LTO прогрессирует: покупали библиотеку в конце нулевых и кассеты были по 800 Гб, а теперь уже по 3+ Тб.
Драйв заменил и они читаются. Коробка та же, привод — тот же, а данных помещается в 5 раз больше.
Это вы на что намекаете?
Это первое, второе, это их специфика — большие объемы информации, они изначально вкладывались в создание ДЦ с огромными хранилищами.
А от ОПСосов — вынь да полож, хорошо что еще не вчера. Затраты разные.
Дано: требуется хранить звонки, смски, чаты и логи интернета и почты. Полгода.
Нет, на самом деле поправка выглядит так:
а) пункт 1 изложить в следующей редакции:
«1. Операторы связи обязаны хранить на территории Российской
Федерации:
1) информацию о фактах приема, передачи, доставки и (или) обработки
голосовой информации, текстовых сообщений, изображений, звуков, видео-
или иных сообщений пользователей услугами связи — в течение трех лет с
момента окончания осуществления таких действий;
2) текстовые сообщения пользователей услугами связи, голосовую
информацию, изображения, звуки, видео-, иные сообщения пользователей
услугами связи — до шести месяцев с момента окончания их приема,
передачи, доставки и (или) обработки. Порядок, сроки и объем хранения
указанной в настоящем подпункте информации устанавливаются Правительством
Российской Федерации.»
И дедуплицыровать этих милых котиков не выйдет — https.
Иначе ведь можно дорассуждаться до того, что оператор связи обязан хранить у себя копию всех сообщений всех пользователей всего интернета, даже если у самого оператора три с половиной абонента, которые кроме одноклассников ничем не пользуются.
Ок.
1) Я считал на полгода, тут на три. Значит, умножаем на 6, получается 1.110 млрд. Есть миллиард. Но если перевести диски на ленту — получится раза в три дешевле, так что нет миллиарда.
2) Я читаю это как «аттачменты в переписке между двумя пользователями», а не «видео стримерши Карины». Это ещё метров 50 в день в среднем по больнице или 9 Гб за полгода на юзера. Примерно те же 170 млрд.
Всё равно нет триллиона.
Да и вообще, вы заходите на gmail через web-интерфейс, загружаете туда видео. Потом я туда же захожу, это видео скачиваю. С точки зрения оператора это вообще не почта. Это может быть и gmail и dropbox и что угодно. Хоть приватный FTP сервер.
По-русски это означает, что инфраструктура нужна на $10. Но т.к. в ней самих железяк на те же $2, а остальное — инженерка и помещения, то это к делу не относится. ЦОДов в стране хватает.
Провайдеры подключают абонентов с учетом коэффициента мультипексирования, при этом не ограничивая скорость в локальной сети. С обработкой пользовательского трафика неизбежно возникнут проблемы.
Например, данные передаваемые в пределах одного многоквартирного дома, но с использованием инфраструктуры местного провайдера, тоже должны быть записаны(обработаны). До ЦОД этот трафик отзеркалировать не выйдет, т.к. к дому обычно подходит одна линия, к которой подключено множество абонентов. Пропускной способности просто не хватит, чтобы передать весь трафик этого сегмента внутренней сети.
Предлагате строить мини-ЦОД в каждом многоквартирном доме?
Исходя из $10 на абонента???
Вы плохо понимаете специфику современных сетей.
Провайдеры подключают абонентов с учетом коэффициента мультипексирования...
Эээ, наверное, согласен. И с тем, что не подумал, и с тем, что вы написали дальше.
Непонятно одно — будут этот трафик в реальности писать или нет. Мои расчёты по валидности примерно равны расчётам официальных представителей операторов, т.к. что там как на самом деле — даже они не знают.
Предлагаете строить мини-ЦОД в каждом многоквартирном доме? Исходя из $10 на абонента???
Нет конечно :) Я вообще не считал в своей смете трафика домашних сеток, всякой торрентовой и стриминговой потребленческой истории. Это ж тотальный адъ и израиль получается :(
Экспертно определяем вес текстовых записей. Все логи интернета и смсок/мессенджеров — текст, который весит сотни килобайт и не может производиться мегабайтами в сутки, это нереально набирать физически, если не иметь тысячи обезьян с пишущими машинками.
А где это вы возьмете текст?
У оператора возьму, он знает, какое приложение трафик в мобильную сеть отдаёт. Да, может не отделить текст от фоток, но это всё равно не тот масштаб. Ну умножьте мои расчёты на 3, будет близко к теме.
У оператора возьму, он знает, какое приложение трафик в мобильную сеть отдаёт
Ха-ха, может ещё оператор знает список установленных на смартфоне приложений?
Даже если не шифровать, каждый мессенджер зипует трафик по-своему, добавляя свои, никому не известные заголовки. И затем укладывает в HTTP/HTTPS (опять же — каждый по-своему), потому что это единственный протокол, нормально проходящий через мобильные сети.
Специально посмотрел статистику интернета-трафика, за последние 6 месяцев 1200ГБ принято, 350ГБ передано. Теперь подсчитайте сколько это теперь будет стоить, с учётом таких пользователей как я.
Уже всё было сказано выше, что под эти неявные описания в законе некоторые органы захотят провести ВЕСЬ пользовательский трафик, так что именно от этого считают наиболее перестраховывающиеся пользователи. В их числе и я.
Крайне плохой закон, особенно, прилично противоречащий Конституции.
Хм, тогда 200PB/mon x 0.007$/GB x 2 redundancy x 6Mon = 17 M$ на одного оператора. На фоне 440 M$ EBITDA не так много, чтобы повышать тарифы в 3-4 раза, но если стоимость хранения ГБ в РФ дороже и учесть необходимость создания инфраструктуры для доступа к хранению и доп расходы на персонал, это может стать и 40-50 М$ на оператора. А в первые месяцы скорее несколько сотен миллионов единовременных затрат.
Амазон российская компания? А как же защита данных и возможные враги?
По опыту своей жизни, ВКС сопровождает только проектную или отчётную фазу шагов любой компании. То есть, в среднем, если никто не растёт, не меняет что-то в дочерних компаниях и ждёт ответов на планёрке — переговорки в видеокодеками стоят. То есть, они стоят 99,5% времени в году.
Как-то так.
Кто захочет (против кого официально направлен законопроект) тот и в перлюстрированном интернете будет обмениваться информацией.
Кто захочет (против кого официально направлен законопроект) тот и в перлюстрированном интернете будет обмениваться информацией.
Совершенно верно. Но чего там в головах у авторов было на самом деле — только они и знают.
Дано: требуется хранить звонки, смски, чаты и логи интернета и почты. Полгода.
Идите закон читайте.
За 5 суток, средний трафик в сутки 3221GB, в месяц 96630GB, и мобильного трафика 8GB в месяц. Все это на двоих с супругой.
07.07 качал в стиме Арму3 и моды)
Я просто не представляю, что может генерировать такой поток постоянно, даже 3-5 стримов в FullHD столько не займут!
В статистике за месяц полный трафик 16,683.18 GB, но в этом месяце 14 дней мы были в отпуске и трафик не потребляли. Все равно как то не мало.
Возможно роутер хитрит что то), может это весь трафик проходящий через роутр, к нему подцеплен винт, кино смотрим dnla, но далеко не каждый день.
P.S. У меня за июнь около 100 Гб. Даже при ярко выраженном «кино-маньячестве» и шестом сезоне «ИП»… =)
Делю фильмы на те, которые можно сохранить в высоком качестве «ради кадра» (а таких очень мало), и на те, где важен лишь сюжет. «Во все тяжкие» – как раз из второй категории, там качество не так уж и важно, сюжет гораздо интереснее.
P.S. Да и качают сразу целыми сезонами лишь раз в год. Даже не считая того, что BB уже давно кончился, сейчас ждём нового Сола. ;)
А вы — нет.
Нам, дилетантам, всё время хочется что-то узнать на собственном опыте, знаете ли. Впрочем, откуда вам знать, вы же не дилетант.
Предвзятое так предвзятое, на здоровье.
Я просто одно хочу сказать: триллиона нет, прикидывал реально минут 10 (с написанием текста), а потом ещё и ошибки исправил.
Максимально честно для формата сделал. Просто для того, чтобы понять, где я что-то не заметил — аудитория показала скользкое место, которое зависит от трактовки.
Какой-то непонятный мазохизм.
А разговоры и переписка — это такие копейки, даже несерьёзно.
Операторская отчетность говорит о 200±50 PB/mon:
Могу подправить расчёты, но, кажется, это никому тут не нужно, все терабайты логов своих трекеров постят :)
Можно привести к цене для типового оператора. В другом комментарии я прикидываю месячный OPEX на хранения 6 месяцев данных (голос не учтен), получается цифра 17-20M$ (сюда же сколько-то сотрудников, например 15, по 100k$ в год). Мне не понятна капитальная составляющая затрат.
Аналогичный пример, сейчас у некоторых мобильных операторов есть источники сбора больших данных — пробники на интерфейсах, но user plane не собирается централизованно, только сигналлинг — это максимум, и не у всех и не всегда, т.к. нет необходимости (экономической) обрабатывать, только может быть для точечной обработки жалоб.
Тендеры на системы для обработки таких данных конечно очень дороги, но несравнимо меньше месячного оборота оператора.
Это приведет к тому, что capex мобильного (4ГБ на абонента в мес — т.е.big3) оператора с 200 PB/mon будет 200PB x 6 mon x 1$/GB = 1.2 B$ Это превосходит ebitda за несколько месяцев (2-4 мес) и тогда операторы правы, что им придется повысить тарифы в разы на 1-2 года или на немного, но надолго.
1usd/GB — это производная, есть какие-то примеры, чтобы получить эту цифру?
Софт туда не нужен практически никакой (хранить же), поэтому берётся любая удобная сборка любой POSIX-системы, потом скрипт разворачивания сразу 200 серверов и через неделю у вас второй Яндекс. У меня был админ, который так в своё время Рамблер поднимал. Потом скучно стало, ушёл менфреймы крутить…
Посмотрел характерную цену за 50 ТБ СХД, действительно порядка одного USD. Нужно еще накинуть на остальную часть оборудования и софта и, видимо, получится ваша первая оценка до 2USD.
Но на этом основании и предыдущей калькуляции видно, что типовому оператору большой тройки нужно 1+ млрд долларов капекса и порядка 20 млн опекса в мес. Это несколько противоречит выводам в вашей статье о несущественности расходов. В предположении, что это станет независимыми расходами для каждого оператора — это большая сумма для них по сравнению с оборотом.
Так для примера мегафон оценил в 250 млрд руб = 3.8 млрд долларов (наша оценка сейчас 1.2 млрд(200PB/mon)). У мегафона сейчас трафик процентов на 70% больше, чем в моей табличке и возможно заложили прогноз на рост. Они даже не приврали вдвое.
Предлагаю отразить в ваших выводах проверку корректности оценки операторов на том уровне, на котором мы сейчас это сделали.
Пока надежда только на то, что закон изначально придуман, чтобы сделать всех провайдеров виноватыми, соответственно послушными любым прихотям от властных структур.
Если же будут требовать выполнение закона, то может быть поможет полное отключение шифрованного трафика. А может и не поможет.
Возьмем 720p — около 20 мегабайт/минуту. Допустим, больше в семье ничего не потребляет, в fullhd не смотрит, игр не качает, торрентом не пользуется.
Скачать 3 часа видеоконтента в день = 3*60*20 = 3600 мегабайт.
В месяц это 3600 *30 = 108000 мегабайт или 100 гигабайт.
В полгода это 600 гигайбайт.
Это в 54 раз больше, чем 11.
Ваши 185 млрд умножаем на 54 = 9990 млрд. 10 триллионов.
Так что врут они про триллионы.
Не врут.
Собственно, против этого «но» тут меня и закошмарили за последние сутки. Понятно, что история возникла с разночтением одной фразы в законе: всё хранить или не всё. Я считаю, что хранить надо только UGC или P2P трафик, т.к. там не определён источник (и это вполне укладывается в формулировку).
А в истории с youtube стриминг-сервер понятен, и потребитель вплоть до IP квартиры тоже известен.
Ну понятно же, что этот трафик никому не нужен. И так придут, если захочется разобраться, что за трафик там такой, шифрованный.
А ещё лучше сделал свой P2P сервер, а в /etc/hosts прописал у youtube.com ip адрес своего сервера. Всё, я в шоколаде.
Я считаю, что хранить надо только UGC или P2P трафик,
Это Вы так считаете. А я вот считаю, что вообще ничего хранить не надо, и надо премировать граждан РФ за каждый просмотренный гигабайт видео. Инвалидам и ветеранам ВОВ — дополнительно пособие за аккаунт в твиттере.
А вот о технической стороне (и не только) вопроса я бы ещё поговорил. В том числе о дедупликации, возможности подмена одних материалов другими, сжатии, распределении и централизованном хранении материала, фиксировании его изменения и прочего.
И тут ещё одна палка о двух концах всплывает: если надо сэкономить место, то надо данные сжимать и беспокоиться об их дедуплицировании, но тогда возрастают нагрузка и требования к софту и железу на их обработку -> Уменьшив траты в одном, увеличиваем их в другом.
* явно больше 200 миллиардов
* меньше нескольких триллионов
(Надо ещё подсчитать операторов, провайдеров и прочее)
Что за бред.
Опять же, конечно, это требует заметное количество мощностей для обработки. И тут уже вопрос — что дешевле: наращивать мощности или объёмы, скажем, РСХ.
Хочу вот ещё на какой момент обратить внимание. Может я не очень внимательно читал закон, но я нигде не увидел слов о качестве хранимого видео и аудио. Кто мешает оператору пережать видео в 144р, а аудио в 3кбит/сек и хранить эту кашу?
Мета будет, видео и аудио есть, а то что в отвратительном качестве — так это не оговорено. Или я ошибаюсь?
А дальше идут стримы со всех несчастных IP камер включенных в сеть, с паролями и без, удалённые рабочие столы и VPN с базами данных предприятий и прочие служебные передачи данных в автоматическом режиме(например о вашей поездке в метро, или о текущем положении самолёта), в конце концов данные медицинских организаций, нововведённого Платона, данные ЕГАИС, камер штрафующих за превышения скорости, банковские операции, целая копия Национальной платёжной системы. Всё что называется deep web.
Во сколько вы оцениваете этот трафик?
Ну и к хранению нужно добавить наценку за секретность, как минимум там же будут личные и коммерческие тайны.
Ну допустим кто-то может что-либо спросить и даже возможно прийти к ИП «Ильюшин-Горбунов Игорь Леонидович», но тогда устроиться в любое юр лицо или гос структуру и передавать шифровки самое лёгкое решение для террориста. Не говоря о работе курьера со служебной симкой. Тогда в чём смысл закона?
>абсолютную безопасность
обещание абсолютной безопасности
Во-первых ничего абсолютного не бывает.
во-вторых текущая реализация, никакой безопасности сама по себе не добавляет.
Чую скоро ФБ и ВК пополнятся подобными статейками развеивания закона Яровой
Но мне не жалко :)
Но я таааак редко пишу на Хабр (минут 5 пароль пытался вспомнить), что вся эта история с кармой — небольшая досада.
Завтра напишу другое и наплюсуют.
Сейчас просто тема такая одиозная и горячая, что одно неосторожное движение и минус. Но. По модулю рейтинг у статьи вышел-таки вполне себе ничего :)
— Да
— Я отправлял смешной мемес в твиттор 31.09.2015, но случайно удалил, пришлите, пожалуйста, по email
Правда, закон не про это. По крайней мере, часть Яровой-Озерова.
А IT-отрасль никто и не убивает. Во многих аспектах — как раз наоборот. Тут я не говорю что проблем нет. Они есть, но и возможностей хватает, просто акцент сместился в другую сторону, а многим игрокам на рынке придётся менять свой подход к области.
информацию, изображения, звуки, видео-, иные сообщения (любых) пользователей услугами связи»?
Это позволит нарисовать в своём воображении ещё более трагическую картину, ведь тогда даже оператор «Вася Пупкин Телекомьюникейшн», перепродающий трафик Ростелекома домовой сети на 15 человек, будет обязан хранить полный архив всего трафика всех пользователей по всей планете. Вот тут-то с подсчётом затрат можно будет развернуться на полную!
Как вы различите общение в vk (между прочим с фотками) и просмотр картинок в какой-то группе, если это https?
Как вы различите общение в телеграм, с end-to-end шифрованием?
Мой вопрос: разве не следует из этого, что подразумеваются исключительно пользователи этого самого оператора связи? В таком случае нет никакой нужды обращать внимание на входящий трафик. Хранить требуется только исходящий (и то, не весь). Если же нет – в таком случае, не обязан ли каждый оператор связи хранить все сообщения всех пользователей всего интернета, в том числе условного Нгамбы Бгонга из ЮАР и некоего Барака Обамы из США, ведь они тоже являются пользователями услуг связи?
Нет, подразумевается хранение сообщений пользователя.
Слал пользователь сообщение, или получал пользователь сообщение — это оба сообщения, которые теперь принадлежат ему.
Следовательно И входящий И исходящий.
Комментарий на ютубе — сообщение? да.
Различить комментарий и само видео, если это https можно? нет
Только по размеру? Но видео не одним куском же идет. Значит хранить все? да.
Как вы видите, трактовать можно как угодно. И если вы доверяете судебной системе РФ в плане того, что они все сделают «правильно», значит вы считаете, что блокировка википедии, гугла и другие подобные действия это в норме вещей?
(И всё же, по поводу Вашей трактовки. Действительно, обычное же дело, когда человек говорит другу: «получил вчера от тебя своё письмо». Или в новостях пишут «хакер Хелл вскрыл почтовый ящик очередной известной личности и скачал полный архив своих сообщений».)
Ещё раз по поводу типов трафика. Видео на ютубе — тоже сообщение. Не только текстовые комментарии. В законе так и прописано: «текстовые сообщения, голосовая информация, изображения, звуки, видео-, иные сообщения».
Уточнять формулировки и вносить поправки будет Правительство РФ, а до того, как правки внесены, операторы связи и «организаторы распространения информации в сети интернет», то есть те, к кому закон предъявляет требования, вольны трактовать эти требования по своему усмотрению.
И к чему, интересно, Вы упомянули судебную систему РФ? Что именно она должна сделать «правильно», если в п.2.а ст. 13 и п.1 ст. 15 ФЗ №374 от 06.07.2016, которые здесь обсуждаются, о ней не говорится ни слова?
а до того, как правки внесены, операторы связи и «организаторы распространения информации в сети интернет», то есть те, к кому закон предъявляет требования, вольны трактовать эти требования по своему усмотрению.
У вас там розовые пони за окном не летают? У нас тут вольны трактовать только «проверяющие» разных мастей, а операторы вольны только исполнять.
Сколько стоит «закон Яровой» на самом деле?