Комментарии 34
С экспоненциальным ростом невозможно справиться простым масштабированием технологии.
Если бы я мог хранить данные на DVD, то у меня была бы стопка blue-ray. Интересные отчёты у IDC.
Скорость накопления данных сейчас снизится за счёт того что мы уже подошли к порогу за которым глаз перестаёт различать отдельные пиксели, а увеличение количества устройств больше не происходит с тем темпом как после выхода первых коммуникаторов.
Если бы я мог хранить данные на DVD, то у меня была бы стопка blue-ray
Ленты дешевле, быстрее, надёжнее и удобнее.
Эта песня про отдельные пиксели звучит при любом разрешении.
Будут хранить 3D-исходники для рендеринга в удобных зрителю ракурсах и масштабах.
Для его хранения требуется 240 млн 4-терабайтных жестких дисков
Для начала стоит оценивать в более-менее современном железе, а не в допотопных HDD.
https://nimbusdata.com/products/exadrive/specifications/
ExaDrive DC 100 TB в формате 3.5"
https://www.supermicro.com/en/products/system/2u/2029/ssg-2029p-e1cr48l.cfm
Cloud-Density Storage вмещает 48 дисков в 2U
https://www.server-rack-online.com/42u-server-cabinet.html
Стандартная стойка на 42U
https://chayora.com/chayora-launches-new-10000-rack-data-centre-campus-serving-shanghai-china/
В датацентр спокойно помещается 10000 стоек
Итого: 100 PB в одной стойке, 1 ZB в одном датацентре (считал как маркетологи)
Судя по графику сейчас хранится 80 ZB, к 2025 прибавится еще 95ZB.
За предыдущий год прибавили почти 20 ZB, итого нужно расти такими же темпами и за 3 года чуток прибавить в объеме одного диска (тот же Nimbus разрабатывает диск на 200 TB).
Отбой паники, расходимся.
Скорость накопления данных сейчас снизится за счёт того что мы уже подошли к порогу за которым глаз перестаёт различать отдельные пиксели
Скорость накопления данных в ближайшие годы резко вырастет из-за распространения генеративных нейросетей, которые генерируют контент с умопомрачительной скоростью.
Экспериментируя со Stable Diffusion, я ухитрялся забить доверху 500 Гб диск всего за ночь, а ведь это ещё только картинки. А теперь представьте, что такие нейронки будут идти в качестве компонента любого фото- и видеоредактора. Человек вводит "хочу видео с полосатыми котиками длительностью 30 минут", и сетка генерирует...
Тут рост не в разы и даже не на порядки намечается, а куда как больше.
Ожидается, что к 2025 году объем данных в мире увеличится на 300 процентов, и для всей этой информации уже начнет не хватать места
И это на фоне лютого снижения продаж ХДД ))
Справимся!
Просто будем чистить базы социальных сетей. Нет там данных!
Всё сожрут логи.
Ага. У меня в практике был такой случай. В конторе, где я занимался кой-какими стораджовыми делами, была одна база MS SQL, которая на тот момент занимала примерно терабайт диска. База была важная, и ее обычно старались не трогать по пустякам. Да и админ был, как бы это... не очень компетентный.
И вот в какой-то момент, когда размер базы подобрался к границе диска и встал вопрос о покупке большего размера диска на замену и миграции туда, кому-то все же пришло в голову посмотреть, чего же она так растет-то?
Оказалось, что примерно полтора года назад у базы сломался бэкап, и 99% объема диска под базу занимали логи, которые не трункатились с тех пор.
Вот примерно так, я полагаю, и растет в мире "объем хранения". :-}
Спрос-предложение, пока хранить мусор дёшево, его будут хранить. Станет дорого, отправят куда положено мусору.
А еще вот операторы связи должны хранить траффик клиентов.... Для спецслужб
«Мы все чаще сталкиваемся с риском так называемого кризиса хранения данных, и миру остро нужны улучшенные решения для хранения информации, которые занимали бы меньше места и требовали меньше энергоресурсов».
Вы всё врёти! А как же Web 3.0, с могучим желанием всех пользователей хранить у себя петабайты данных???
Улучшенная система ранжирования нужности данных нам нужна. Например, сколько реально нужных видео из тех 500-700 петабайт видео на Ютубе? Сколько из них можно перевести обратно в текст?
Смотря кому нужных.
Ролики с почти-статичной (или генерированной) картинкой на часы, в которых главное — музыка нужны?
А видео и звуки природы вроде https://www.youtube.com/watch?v=FxAgAyZYXJ8?
А ролики где видео (и даже в 4K) — это исполнитель поющий что-то а аудитрек — очень неплохо обрабаотанная запись? вроде https://www.youtube.com/watch?v=JGc1z4sfSOE
А ролики где объясняют то что можно было бы в статье на хабре текстом написать и было бы понятнее? (потому что ну смысл показывать говоряющую голову то?)
А очередной летсплей?
А очередной обзор Meta Quest Pro?
А разжигание? (точнее трейлер альбома но там альбом… политический) https://youtu.be/YV4oYkIeGJc например
А "псевдо"религиозное вроде https://www.youtube.com/watch?v=wwYQNNl9kgA (количество просмотров смотрим тоже) ?
А ведь по мнению авторов всего этого и тех кто смотрит — этому место на Youtube и это реально нужно...
Вытереть из инета дубли, бекапы бекапов, посты ТПшек с километром фоток похода в туалет и инет скукожится до размеров одного среднестатистического датацентра.
...и вход по паспорту!
Если серьёзно, то я издавна удивляюсь, откуда Google берёт резервы хранения для того же YouTube. Возможно мы, айтишники, застанем ещё обратную тенденцию ухода корпоративных данных из облака в локальные частные дата-центры.
Youtube-то ещё ладно, там хотя бы модель монетизации понятна.
А вот есть такой сервис как Google Colab, и вот он по-настоящему вгоняет в шок невиданной щедростью. Просто прикиньте, сколько стоит аренда VPS сходного уровня даже без GPU, и уже начнёте тихо офигевать. А уж стоимость аренды VPS с GPU уровня Tesla и вовсе улетает в космос.
А Google раздаёт всё это на халяву, причём в промышленных масштабах. По ощущениям, уже у каждого студента-айтишника там есть по собственному инстансу.
Как захожу туда - каждый раз поражаюсь. У них там в Гугле что, уже коммунизм наступил, что вычислительные мощности раздаются каждому по потребностям без каких-либо попыток отбить затраты? За чей счёт банкет? Кто вообще за всё это платит?
кризис хранения данных актуален уже давно, все дело в ценности этих самых данных.
тотальный переход с позорного х264 на куда более компактный х265 мало того что сократит емкость видеоконтента вполовину, так еще и избавит (впоследствии) ютуб и прочие "однокнопочные" от ущербных артефактов сжатия.
зачистка отсосальных сетей от никому ненужных "сторис с жопами и суши-роллами", а также стримов, стримов стримов и видеообращений ноунеймов к стенке с двумя просмотрами избавит датацентры от экзабайтов мусора.
- можно еще порнуху всю потереть
- ты в своем уме?
про то, с каким остервенением гугол все складирует "на всякий" аки барахольщица не упоминаю, это уже их личная проблема.
вобщем кризис обусловлен не только количеством данных, но и халатным отношением к полезности и востребованности этих данных. Сортировать некому и некогда, вот оно все и копится...
Кто будет решать?
И какой будет вой про цензуру?
И привидет это к тому что вдсина и прочие firstvds в России начнут рекламировать предоставление настроенного инстанса PeerTube с интерфейсом для полных блондинок… и использовать диски уже под это.
Да, некоторые плюсы (и они же — минусы) — в том что:
- публикация уже не будет совсем уж бесплатной а значит думать а так ли надо?
- цензура значительно усложнится
Просто нужно подчищать за собой, как и обычный мусор. Удалять за ненадобностью анбоксинги, стримы школьников, реакшн видео, камбоджийские фейки про строительство дворцов из глины руками и ловлю рыбы кока-колой, тупой однотипный прон, щитпостинг, видосики с домашними животными типа моя сюся пуся подрисила. Какой-нибудь механизм ввести с таймером удаления, если никто не нажимает просьбу оставить этот аккаунт.
Повторюсь.
Надо думать не о том, как бежать за увеличением объема информации, а про ее упорядочение и фильтрацию. Когда постоянно репостят накачанные губы, никаких накопителей не хватит)
Просто статистика:
каждую минуту через Uber заказывают 45 787 машин, Spotify добавляет 13 новых песен, пользователи Twitter постят 456 000 постов, в Instagram появляется 46 740 новых фотографий, поисковик Google реагирует на 3,6 миллиона запросов, на Wikipedia появляется 600 новых правок.
Каждую минуту рассылается 103 447 520 спам-сообщений.
Сейчас совокупный общемировой объем хранимой информации около 20 экзабайт (10 в 21-й степени), к 2025 году ожидается более 150 экзабайт. Из них только 60% будут промышленные данные, причем это в основном интернет вещей.
Проблема информационного мусора пока не слишком очевидна, но он скоро завалит нашу планету. Пора разрабатывать ИнфоВалли.
Хотя, чисто не там, где убирают, а там, где не мусорят...
Требуется оптимизация хранимого контента.
1. Нужно исключить дубликаты данных выше определенного предела.
Не хранить временную информацию вечно
Определить насколько важна информация, всё лишнее удалить. Да тут кто-то должен будет принять решение, сервера не резиновые. Например зачем нужны бесконечные ролики про котов и собак? Люди генерируют подобный контент регулярно.
Нужно ввести различную цену на различный контент, это необязательно денежная цена, просто можно определить сколько и чего можно хранить в определенных объемах.
Хочешь не хочешь, а удалить менее важное придется, ведь иначе просто некуда будет сохранять важное. В принципе физическое ограничение хранилищь сделают это сами в некоторой степени.
Рост будет даже быстрее экспоненциального. Ютьюбики и тиктоки легко потеряются на фоне одного полностью цифровизированного заводика, который станет хранить данные с датчиков IIoT и обрабатывать их. А когда захотят выявлять закономерности с большим периодом (например, несколько лет), придется хранить зеттабайты данных локально, так как существующие каналы связи с такими потоками просто не справятся. И если до мелких заводиков это дойдет не скоро, для объектов критической инфраструктуры это ближайшее будущее.
Глобальный кризис хранения данных. Почему места в хранилищах на всех не хватит