Как стать автором
Обновить

Комментарии 34

С экспоненциальным ростом невозможно справиться простым масштабированием технологии.

Любой экспоненциальный рост со временем «втыкается» в ограничения. Просто оценщики это не учитывают. Если будет дефицит просто поднимут цены. И тогда начнут задумываться какой мусор сохранять, а какой нет.

Если бы я мог хранить данные на DVD, то у меня была бы стопка blue-ray. Интересные отчёты у IDC.

Скорость накопления данных сейчас снизится за счёт того что мы уже подошли к порогу за которым глаз перестаёт различать отдельные пиксели, а увеличение количества устройств больше не происходит с тем темпом как после выхода первых коммуникаторов.

Если бы я мог хранить данные на DVD, то у меня была бы стопка blue-ray

Ленты дешевле, быстрее, надёжнее и удобнее.

(на самом деле нет).

Эта песня про отдельные пиксели звучит при любом разрешении.

Будут хранить 3D-исходники для рендеринга в удобных зрителю ракурсах и масштабах.

Для его хранения требуется 240 млн 4-терабайтных жестких дисков

Для начала стоит оценивать в более-менее современном железе, а не в допотопных HDD.

https://nimbusdata.com/products/exadrive/specifications/

ExaDrive DC 100 TB в формате 3.5"

https://www.supermicro.com/en/products/system/2u/2029/ssg-2029p-e1cr48l.cfm

Cloud-Density Storage вмещает 48 дисков в 2U

https://www.server-rack-online.com/42u-server-cabinet.html

Стандартная стойка на 42U

https://chayora.com/chayora-launches-new-10000-rack-data-centre-campus-serving-shanghai-china/

В датацентр спокойно помещается 10000 стоек

Итого: 100 PB в одной стойке, 1 ZB в одном датацентре (считал как маркетологи)

Судя по графику сейчас хранится 80 ZB, к 2025 прибавится еще 95ZB.

За предыдущий год прибавили почти 20 ZB, итого нужно расти такими же темпами и за 3 года чуток прибавить в объеме одного диска (тот же Nimbus разрабатывает диск на 200 TB).

Отбой паники, расходимся.

Не учли резервирование для рейдов. Делать в датацентрах системы хранения без резервирования - моветон. Чем больше объем диска, тем больше потеряешь информации при его отказе

Скорость накопления данных сейчас снизится за счёт того что мы уже подошли к порогу за которым глаз перестаёт различать отдельные пиксели

Скорость накопления данных в ближайшие годы резко вырастет из-за распространения генеративных нейросетей, которые генерируют контент с умопомрачительной скоростью.

Экспериментируя со Stable Diffusion, я ухитрялся забить доверху 500 Гб диск всего за ночь, а ведь это ещё только картинки. А теперь представьте, что такие нейронки будут идти в качестве компонента любого фото- и видеоредактора. Человек вводит "хочу видео с полосатыми котиками длительностью 30 минут", и сетка генерирует...

Тут рост не в разы и даже не на порядки намечается, а куда как больше.

Так хранить не надо будет, нейросеть еще нагенерирует. То же самое или еще лучше.

Ожидается, что к 2025 году объем данных в мире увеличится на 300 процентов, и для всей этой информации уже начнет не хватать места

И это на фоне лютого снижения продаж ХДД ))

Ага. У меня в практике был такой случай. В конторе, где я занимался кой-какими стораджовыми делами, была одна база MS SQL, которая на тот момент занимала примерно терабайт диска. База была важная, и ее обычно старались не трогать по пустякам. Да и админ был, как бы это... не очень компетентный.
И вот в какой-то момент, когда размер базы подобрался к границе диска и встал вопрос о покупке большего размера диска на замену и миграции туда, кому-то все же пришло в голову посмотреть, чего же она так растет-то?
Оказалось, что примерно полтора года назад у базы сломался бэкап, и 99% объема диска под базу занимали логи, которые не трункатились с тех пор.

Вот примерно так, я полагаю, и растет в мире "объем хранения". :-}

Спрос-предложение, пока хранить мусор дёшево, его будут хранить. Станет дорого, отправят куда положено мусору.

А еще вот операторы связи должны хранить траффик клиентов.... Для спецслужб

МУАХАХА, вот у кого проблема будет с хранением (туда им и дорога)

Как раз у них не будет. Они ОБЯЗАНЫ хранить. Значит будут повышать цены и тд..

разумеется, что они ОБЯЗАНЫ хранить, но они НЕ СМОГУТ хранить - если хотя бы 1% пользователей будет смотреть 16К видео, там все переполнится

«Мы все чаще сталкиваемся с риском так называемого кризиса хранения данных, и миру остро нужны улучшенные решения для хранения информации, которые занимали бы меньше места и требовали меньше энергоресурсов».

Вы всё врёти! А как же Web 3.0, с могучим желанием всех пользователей хранить у себя петабайты данных???

Улучшенная система ранжирования нужности данных нам нужна. Например, сколько реально нужных видео из тех 500-700 петабайт видео на Ютубе? Сколько из них можно перевести обратно в текст?

Смотря кому нужных.
Ролики с почти-статичной (или генерированной) картинкой на часы, в которых главное — музыка нужны?
А видео и звуки природы вроде https://www.youtube.com/watch?v=FxAgAyZYXJ8?
А ролики где видео (и даже в 4K) — это исполнитель поющий что-то а аудитрек — очень неплохо обрабаотанная запись? вроде https://www.youtube.com/watch?v=JGc1z4sfSOE
А ролики где объясняют то что можно было бы в статье на хабре текстом написать и было бы понятнее? (потому что ну смысл показывать говоряющую голову то?)
А очередной летсплей?
А очередной обзор Meta Quest Pro?
А разжигание? (точнее трейлер альбома но там альбом… политический) https://youtu.be/YV4oYkIeGJc например
А "псевдо"религиозное вроде https://www.youtube.com/watch?v=wwYQNNl9kgA (количество просмотров смотрим тоже) ?


А ведь по мнению авторов всего этого и тех кто смотрит — этому место на Youtube и это реально нужно...

Вытереть из инета дубли, бекапы бекапов, посты ТПшек с километром фоток похода в туалет и инет скукожится до размеров одного среднестатистического датацентра.

...и вход по паспорту!

Если серьёзно, то я издавна удивляюсь, откуда Google берёт резервы хранения для того же YouTube. Возможно мы, айтишники, застанем ещё обратную тенденцию ухода корпоративных данных из облака в локальные частные дата-центры.

Youtube-то ещё ладно, там хотя бы модель монетизации понятна.

А вот есть такой сервис как Google Colab, и вот он по-настоящему вгоняет в шок невиданной щедростью. Просто прикиньте, сколько стоит аренда VPS сходного уровня даже без GPU, и уже начнёте тихо офигевать. А уж стоимость аренды VPS с GPU уровня Tesla и вовсе улетает в космос.

А Google раздаёт всё это на халяву, причём в промышленных масштабах. По ощущениям, уже у каждого студента-айтишника там есть по собственному инстансу.

Как захожу туда - каждый раз поражаюсь. У них там в Гугле что, уже коммунизм наступил, что вычислительные мощности раздаются каждому по потребностям без каких-либо попыток отбить затраты? За чей счёт банкет? Кто вообще за всё это платит?

Судя по всему, отдают простаивающие мощности Google Cloud.

кризис хранения данных актуален уже давно, все дело в ценности этих самых данных.

тотальный переход с позорного х264 на куда более компактный х265 мало того что сократит емкость видеоконтента вполовину, так еще и избавит (впоследствии) ютуб и прочие "однокнопочные" от ущербных артефактов сжатия.

зачистка отсосальных сетей от никому ненужных "сторис с жопами и суши-роллами", а также стримов, стримов стримов и видеообращений ноунеймов к стенке с двумя просмотрами избавит датацентры от экзабайтов мусора.

- можно еще порнуху всю потереть

- ты в своем уме?

про то, с каким остервенением гугол все складирует "на всякий" аки барахольщица не упоминаю, это уже их личная проблема.

вобщем кризис обусловлен не только количеством данных, но и халатным отношением к полезности и востребованности этих данных. Сортировать некому и некогда, вот оно все и копится...

Кто будет решать?
И какой будет вой про цензуру?
И привидет это к тому что вдсина и прочие firstvds в России начнут рекламировать предоставление настроенного инстанса PeerTube с интерфейсом для полных блондинок… и использовать диски уже под это.
Да, некоторые плюсы (и они же — минусы) — в том что:


  • публикация уже не будет совсем уж бесплатной а значит думать а так ли надо?
  • цензура значительно усложнится

Просто нужно подчищать за собой, как и обычный мусор. Удалять за ненадобностью анбоксинги, стримы школьников, реакшн видео, камбоджийские фейки про строительство дворцов из глины руками и ловлю рыбы кока-колой, тупой однотипный прон, щитпостинг, видосики с домашними животными типа моя сюся пуся подрисила. Какой-нибудь механизм ввести с таймером удаления, если никто не нажимает просьбу оставить этот аккаунт.

"если никто не нажимает просьбу оставить этот аккаунт." тогда останутся только перечисленные выше, а знания уйдут в корзину

Повторюсь.

Надо думать не о том, как бежать за увеличением объема информации, а про ее упорядочение и фильтрацию. Когда постоянно репостят накачанные губы, никаких накопителей не хватит)

Просто статистика:

каждую минуту через Uber заказывают 45 787 машин, Spotify добавляет 13 новых песен, пользователи Twitter постят 456 000 постов, в Instagram появляется 46 740 новых фотографий, поисковик Google реагирует на 3,6 миллиона запросов, на Wikipedia появляется 600 новых правок.

Каждую минуту рассылается 103 447 520 спам-сообщений.

Сейчас совокупный общемировой объем хранимой информации около 20 экзабайт (10 в 21-й степени), к 2025 году ожидается более 150 экзабайт. Из них только 60% будут промышленные данные, причем это в основном интернет вещей.

Проблема информационного мусора пока не слишком очевидна, но он скоро завалит нашу планету. Пора разрабатывать ИнфоВалли.

Хотя, чисто не там, где убирают, а там, где не мусорят...

Требуется оптимизация хранимого контента.

1. Нужно исключить дубликаты данных выше определенного предела.

  1. Не хранить временную информацию вечно

  2. Определить насколько важна информация, всё лишнее удалить. Да тут кто-то должен будет принять решение, сервера не резиновые. Например зачем нужны бесконечные ролики про котов и собак? Люди генерируют подобный контент регулярно.

  3. Нужно ввести различную цену на различный контент, это необязательно денежная цена, просто можно определить сколько и чего можно хранить в определенных объемах.

  4. Хочешь не хочешь, а удалить менее важное придется, ведь иначе просто некуда будет сохранять важное. В принципе физическое ограничение хранилищь сделают это сами в некоторой степени.

Бред, но часть проблем хранения может повесить вообще на клиента. Не спрашивайте, не знаю как технически и что конкретно, но вдруг.

Рост будет даже быстрее экспоненциального. Ютьюбики и тиктоки легко потеряются на фоне одного полностью цифровизированного заводика, который станет хранить данные с датчиков IIoT и обрабатывать их. А когда захотят выявлять закономерности с большим периодом (например, несколько лет), придется хранить зеттабайты данных локально, так как существующие каналы связи с такими потоками просто не справятся. И если до мелких заводиков это дойдет не скоро, для объектов критической инфраструктуры это ближайшее будущее.

Тут — кризис хранилищ, места не хватает, там — винты не покупают... вот и пойми их ?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий