GRADDATA 27 мар в 12:56

Объектное хранилище S3: практическое руководство без лишних слов

Простой

4 мин

9.5K

Блог компании VK TechБлог компании VKDevOps*Хранение данных*

Туториал

✏️ Технотекст 7

Объектное хранилище S3 стало стандартом для работы с большими объемами данных в облаке. Оно позволяет хранить файлы любого типа, легко управлять доступом и интегрироваться с другими сервисами. Но давайте без маркетинговых лозунгов: зачем это действительно нужно?

Меня зовут Станислав Погоржельский, я технологический евангелист VK Cloud, и в том числе в рамках своей работы рассказываю про наши облачные и on-prem решения. В этой статье мне захотелось поделиться, как именно объектное хранилище S3 помогает решать реальные задачи.

Объектное хранилище полезно, когда вам нужно:

хранить медиафайлы без забот о серверах;
автоматически делать бэкапы баз данных;
интегрировать данные с аналитикой и системами машинного обучения;
гибко управлять правами доступа;
разворачивать масштабируемые системы хранения данных.

В этом руководстве мы подробно разберем, как развернуть объектное хранилище, загрузить файлы и управлять ими, а также рассмотрим практические сценарии его использования. Спойлер статьи: если вам важно отслеживать изменения в файлах, включите версионность бакета — это защитит данные от случайного удаления или перезаписи.

Основные принципы работы

Объектное хранилище строится на трех ключевых концепциях:

Объекты — любые файлы (документы, изображения, логи), которые можно загружать и скачивать.
Бакеты — контейнеры для организации хранения объектов.
Метаданные — дополнительная информация об объектах (размер, тип, пользовательские атрибуты).

Каждый объект доступен по уникальному URL, а доступ можно гибко настроить на уровне бакета или отдельного объекта.

Подготовка окружения

Установка клиента для работы с объектным хранилищем

Для работы с объектным хранилищем необходим клиент. Популярные варианты — boto3 (Python SDK), s3cmd (CLI) или другие инструменты.

Установка boto3 (Python SDK):

pip install boto3

Установка s3cmd для работы через терминал

sudo apt update && sudo apt install s3cmd

После установки настройте подключение, указав endpoint URL вашего хранилища, ключи доступа и имя бакета.

Практические примеры

1. Храним медиафайлы в веб-приложении

Вы разрабатываете веб-сервис, где пользователи загружают изображения и видео. Держать их на сервере? Не лучшая идея: сложно масштабировать и бэкапить. Используем объектное хранилище:

Настройка бакета для медиафайлов

Перед загрузкой данных создадим бакет, если его еще нет.

import boto3

s3 = boto3.client("s3", endpoint_url="https://your-s3-provider.com")

bucket_name = "my-media-bucket"

s3.create_bucket(Bucket=bucket_name)

print(f"Бакет {bucket_name} создан.")

Код на Python (загрузка файла через SDK)

file_path = "image.jpg"

object_name = "uploads/user123/image.jpg"

 

s3.upload_file(file_path, bucket_name, object_name)

print(f"Файл загружен в {bucket_name}/{object_name}")

Теперь файл доступен по URL и может быть использован в приложении.

Настройка публичного доступа к файлу

s3.put_object_acl(ACL='public-read', Bucket=bucket_name, Key=object_name)

print("Файл теперь доступен публично.")

2. Резервное копирование базы данных

Хотите спокойно спать по ночам? Автоматизируем бэкапы базы данных.

Создание и загрузка бэкапа PostgreSQL

#!/bin/bash

TIMESTAMP=$(date +"%Y-%m-%d_%H-%M-%S")

BACKUP_FILE="backup_$TIMESTAMP.sql.gz"

 
pg_dump -U postgres mydatabase | gzip > $BACKUP_FILE

s3cmd put $BACKUP_FILE s3://my-backup-bucket/$BACKUP_FILE

 
echo "Бэкап сохранен: $BACKUP_FILE"

Восстановление базы данных из бэкапа

s3cmd get s3://my-backup-bucket/backup_2023-01-01_12-00-00.sql.gz

gzip -d backup_2023-01-01_12-00-00.sql.gz

psql -U postgres mydatabase < backup_2023-01-01_12-00-00.sql

Теперь база данных регулярно сохраняется в объектное хранилище, а восстановление занимает пару минут.

3. Версионность объектов и архивирование

Версионность поможет защитить объекты от случайного удаления или изменения.

Включение версионности бакета

s3.put_bucket_versioning(

	Bucket=bucket_name,

	VersioningConfiguration={"Status": "Enabled"}

)

print("Версионность включена для бакета")

Теперь объектное хранилище сохраняет старые версии файлов при их изменении или удалении.

Архивирование файлов с помощью cron

Допустим, вы хотите ежедневно архивировать определенные папки и загружать их в объектное хранилище. Добавьте следующую строку в crontab -e:

0 3 * * * tar -czf /backup/archive_$(date +"\%Y-\%m-\%d").tar.gz /var/www/html && s3cmd put /backup/archive_$(date +"\%Y-\%m-\%d").tar.gz s3://my-archive-bucket/

Этот скрипт:

Каждый день в три часа ночи архивирует директорию /var/www/html.
Загружает архив в объектное хранилище.

Теперь ваши файлы регулярно архивируются и хранятся в облаке.

Оптимизация и безопасность

Оптимизация затрат:

Используйте разные классы хранения (горячие и холодные данные).
Настройте автоматическое удаление старых файлов с помощью lifecycle-политик.

Настройка шифрования

Для защиты данных можно включить серверное шифрование:

s3.put_bucket_encryption(

	Bucket=bucket_name,

	ServerSideEncryptionConfiguration={

    	'Rules': [{

        	'ApplyServerSideEncryptionByDefault': {

            	'SSEAlgorithm': 'AES256'

        	}

    	}]

	}

)

Управление доступом

Используйте IAM-политику для четкого разграничения прав.
Регулярно пересматривайте политики доступа.

Заключение

Object Storage — мощный инструмент, который упрощает работу с файлами, помогает автоматизировать резервное копирование и интеграцию данных с различными системами аналитики и ML. Правильно настроенное объектное хранилище решает большинство проблем масштабирования, безопасности и надежности хранения данных.

Если вам нужно надежное хранилище с простым API, оно вам точно подойдет. Главное — не храните там пароли в открытом виде. 🙃

27 февраля мы провели вебинар на тему работы с S3 — Используем S3 на максимум. Как построить эффективное и устойчивое объектное хранилище. Вебинар посвящён тому, как начать работать с сервисом, и практическим сценариям по его использованию. Советуем посмотреть, если вас интересует эта тема — там много практики.

Используем S3 на максимум. Как построить эффективное и устойчивое объектное хранилище

vkvideo.ru

Хабы: