Объем информации в мире продолжает расти в геометрической прогрессии. Согласно новому исследованию Statista, опубликованному 18 марта, общий объем данных, созданных в мире в 2020 году, составил 64,2 зеттабайта. То есть 64,2 триллиона гигабайт. И ожидается, что к 2025-му на планете будет создаваться уже по 180 зеттабайт данных в год.

Никаких физических накопителей на такое не хватит, учитывая, что сейчас у нас недостаточно даже чипов для видеокарт. Неудивительно, что траты на хранение и обработку данных постоянно растут. Это постепенно становится вопросом №1. В 2021 году объем рынка Big Data достиг $162,6 млрд — хотя в 2013-м он составлял $34 млрд.

Нужны новые технологии. Иначе проблемы с высокими эксплуатационными расходами, нехваткой емкостей для хранения и устаревшим оборудованием будут только усугубляться, и это поставит под вопрос развитие всей индустрии.

Объем данных в мире по версии Statista Research Department

Растущая стоимость хранения данных подтолкнула многие компании к переходу на облачные технологии, преимуществом которых являются низкие начальные траты. Но новых данных создается столько, что даже облака начинают становиться чересчур дорогими. Отчет Pepperdata показывает, что треть компаний превышают свой бюджет на облачные услуги на 40%. А для 64 % компаний самой большой проблемой при использовании облачных технологий и Big Data становится как раз «управление затратами и их снижение».

Чтобы попытаться решить проблему «заоблачных расходов» (zing!), возникают стартапы, использующие ИИ. Например, Densify и Cast AI, платформы на основе искусственного интеллекта, которые могут порекомендовать наилучшую конфигурацию хранилища для рабочих нагрузок компаний, принимая во внимание все сиюминутные требования. Они обещают в итоге снизить цену облака для корпоративных клиентов в два раза.

Другие разработчики обратили свое внимание на локальные системы, создав алгоритмы, которые, по их утверждению, могут снизить затраты на хранение данных при помощи новых методов сжатия файлов.

Также широкое пространство открывается в сфере оптимизации. Хранилища данных часто состоят из множества типов носителей: диски, флэш-память, накопители на магнитной ленте и так далее. В компании также может быть несколько массивов с данными. И нужно обеспечить, чтобы все они грамотно взаимодействовали между собой. Если ИИ сможет упростить управление всеми этими конструкциями, повысить безопасность и снизить стоимость хранения данных, то один такой алгоритм может стоить миллиарды долларов.

Не зря одним из первых (и до сих пор самых успешных) применений DeepMind еще в 2016 году стала работа в дата-центрах Google. Тогда он смог снизить расходы на охлаждение ЦОДов на 40%, сэкономив компании сотни миллионов долларов.

В облака!

За прошедшие два года рекордное количество компаний перешли на облачные технологии. Согласно недавнему опросу O’Reilly, в 2021 году уже 90% организаций использовали облачные вычисления в своей работе. А исследование Flexera показывает, что 35% компаний в США тратили более $12 млн на облачные операции в 2021 году.

Такая тенденция привела к появлению мириады стартапов, разрабатывающих ИИ, нацеленные на снижение расходов при пользовании облачными сервисами. Например, Densify анализирует нагрузки в центрах обработки данных, AWS, Azure, Google Cloud и так далее. И определяет, сколько ЦП, ОЗУ и хранилища реально нужно. Для этого ИИ может использовать уже доступные данные журналов и с первой же секунды начинать искать пути оптимизации. А потом платформа в реальном времени анализирует потребности приложений, изменения цен у провайдеров и запуски новых продуктов и находит, где можно еще больше сократить расходы.

Гендиректор Densify Джерри Смит говорит, что в течение двух-четырех недель их клиенты обычно снижают свои расходы на 40%. А через два-три месяца — еще на 20-30%.

Cast AI, конкурент Densify, аналогичным образом использует ИИ для оптимизации расходов на облако. Платформа подключается к существующим облакам и создает отчеты, показывающие, где можно сэкономить. Причем в своих отчетах ИИ пытается спрогнозировать будущие характеристики рынка. Он учитывает типы устройств, скорость их износа, регионы, зоны доступности, сезонность спроса и многие другие параметры.

Все клиенты, использующие Cast AI, автоматически добавляют в нее свои данные, и это помогает еще быстрее обучать модель. Соответственно, она уже лучше любой одной группы инженеров понимает, как проводить масштабирование, когда можно поставить узел на паузу, какие узлы будут правильными, какие размеры нужны и так далее. Компания обещает сокращение трат на облака на 50%, или она покроет разницу. А средняя экономия, по ее словам, вообще достигает 63%.

Локальная среда: сжать до предела

Для компаний, которые еще полностью не перешли в облако, и у кого хранятся петабайты данных в локальных средах, есть такие решения как Storage Optimization Analytics от Accenture. Здесь искусственный интеллект используется для распознавания корпоративного контента и автоматической классификации данных. Он быстро находит дублирующийся или очень похожий контент и перемещает или архивирует файлы. При необходимости система также обеспечивает переход на хранилище подешевле (которое она сама вычисляет, сравнивая ROI).

ИТ-провайдер Rahi Systems предлагает аналогичную услугу под названием Pure1 Meta, которая использует модели искусственного интеллекта для прогнозирования нужной емкости и производительности хранилищ. Pure1 Meta запускает симуляции для конкретных компаний и создает рекомендации по поводу развертывания и оптимизации рабочих нагрузок. Разработчики говорят, что это помогает повысить эффективность использования ресурсов. Плюс — появляется возможность прогнозировать и устранять проблемы с хранилищами данных еще до их появления.

ИИ также начинает играть всё большую роль в сфере обычного сжатия файлов. Вроде бы с этой сферой всё уже давно было понятно. Но оказалось, что сжатие видео, музыки и изображений с помощью нейросетей может занять меньше времени и дать такой же визуальный уровень с меньшим количеством битов.

Сжатие видео с новым AI-инструментом от Nvidia

Внезапным преимуществом стало и то, что новые кодеки с ИИ легче обновлять, стандартизировать и развертывать по сравнению с обычными кодеками. Модели обучаются быстрее, чем программисты адаптируют код, к тому же не приходится тратить времени на багфиксы. Натренированная модель адаптируется к новому формату за очень короткое время, иногда — считанные часы или дни. И, что важно, для этого не требуется специальное оборудование.

Такие сайты как VanceAI и Compression.ai умеют сжимать изображения в разы — почти без ущерба для разрешения и качества. А Qualcomm и Google уже около года экспериментируют с аудио- и видеокодеками на основе ИИ. Одна из задач — научить нейросети лучше сжимать данные трансляций звонков в WhatsApp и видео из YouTube, чтобы можно было экономить на трафике.

Результат Qualcomm, как они говорят, — дополнительные 24% компрессии по сравнению с лучшими стандартными кодеками. А DeepMind несколько месяцев назад научилась уменьшать объем данных, которые YouTube должен передавать пользователям, на 4% без потери качества видео. В перспективе это позволит Google сэкономить сотни миллионов долларов.

Смотрим в будущее

Существует отдельный термин AIOps, который означает «искусственный интеллект для IT-операций». Первоначально он был придуман Gartner в 2017 году. Платформы с AIOps нацелены на усовершенствование IT-операций за счет использования ИИ для анализа данных и управления ими.

Пандемия стала дополнительным катализатором внедрения платформ с AIOps. Компании, особенно на западе, хотят побыстрее автоматизироваться, чтобы потом быстрее реагировать на постоянно меняющиеся обстоятельства. По информации Emergn, 87% организаций планируют, что их инвестиции в автоматизацию рабочих процессов вырастут в течение следующих двух лет. А в опросе K2 2020 года 92% владельцев компаний сказали, что считают автоматизацию жизненно важной для достижения успеха на сегодняшнем рынке. Не зря аналитики ожидают, что рынок AIOps будет расти более чем на 30% в годовом исчислении.

AIOps создает особые возможности и для провайдеров (MSP). Обещая снижение затрат, увеличение качества доставки сервисов и рост мощности киберзащиты. Да, это требует сложной интеграции, и развертывание ИИ-систем для многих компаний может стать несбыточной мечтой. Но уже появляются универсальные решения для управления хранением данных. Они оптимизируют размещение информации, балансируют производительность и затраты, улучшают доступность инфраструктуры, в том числе за счет предиктивной аналитики.

Всё это позволяет подойти к ограничению на количество физических носителей с другой стороны. Попытаться решить проблему умом. И, как мы видим по результатам тех же Qualcomm и Densify, перспективы здесь отличные. Возможно, это наш единственный шанс на значительное снижение стоимости хранения данных. А иначе — эта чрезмерная стоимость будет естественным образом тормозить развитие нашей с вами индустрии.


Промокод для читателей нашего блога:

— 15% на все тарифы VDS (кроме тарифа Прогрев) — по промокоду HabrFIRSTVDS.

Более 50 тысяч активных серверов и 10 тысяч клиентов, которые с нами больше 5 лет.