Хранение данных *

Что имеем, то храним

СтатьиПостыНовостиАвторыКомпании

stratnevpy 2 апр в 10:32

Отказоустойчивость в MinIO

Простой

14 мин

8.5K

Блог компании RUTUBEАнализ и проектирование систем * IT-инфраструктура * Хранение данных *

Обзор

Simple Storage Service или S3 — сервис (и одновременно протокол) для хранения данных большого объёма. Для работы использует API поверх HTTP, который позволяет загружать или получать объекты из хранилища.

В проектах с приватной инфраструктурой часто возникает потребность в организации on-premise S3-хранилища. Популярное решение в таком случае это MinIO — удобная и довольно простая в использовании реализация сервиса S3. Когда нам в RUTUBE потребовалось S3, мы не стали долго думать и взяли MinIO, потому что он стильный, модный, молодежный хорошо себя зарекомендовал на рынке, хорошо документирован и прост в первоначальной настройке и эксплуатации.

В этой статье поделюсь своим опытом использования MinIO, сделав акцент на отказоустойчивости и сохранности данных в случае инцидентов разной степени — от выпадения диска до пожара в цоде.

+17

GrishinAlex 2 апр в 09:09

Мультирегиональность в Selectel S3: работаем с регионами SPB и MSK из Python

6 мин

3.2K

Блог компании SelectelРаспределённые системы * Облачные сервисы * Python * Хранение данных *

Обзор

Катастрофоустойчивое хранение данных — одна из актуальных задач при построении IT-инфраструктуры. Но ее решение может завести в тупик. Как оптимальнее организовать хранение данных, исключив домены отказа? Как разместить определенные данные ближе к целевой нагрузке или части аудитории? Как организовать асинхронную репликацию данных между Москвой и Санкт-Петербургом?

Всем привет! Меня зовут Гришин Александр, я продакт-менеджер в Selectel и отвечаю за развитие объектного хранилища и облачных баз данных. Под катом я расскажу, как с помощью мультирегиональности взаимодействовать с разными регионами S3 через Python и библиотеку boto3. Это поможет хранить и обрабатывать данные в Москве и Санкт-Петербурге, используя единую авторизацию и простой интерфейс. К тому же — улучшить катастрофоустойчивость и доступность данных, а еще снизить задержки при работе с объектами, когда инфраструктура распределена между городами.

Читать дальше →

+50

ru_vds 2 апр в 09:01

Менеджер закладок на своём сервере

Средний

5 мин

10K

Блог компании RUVDS.comСофтСерверное администрирование * Open source * Хранение данных *

Туториал

Хранить тысячи закладок в браузере — совершенно неблагодарная задача. Там отсутствуют даже офлайн-предпросмотр и автоматические теги, не говоря о полнотекстовом поиске и автоматическом скачивании/архивировании по RSS.

Для нормального управления закладками нужно специализированное решение. Тут много вариантов, а одно из лучших — это опенсорсное приложение Hoarder («Копилка информации»). Оно устанавливается на сервер и выступает единой БД для доступа из любых клиентов: Android, iOS, Chrome, Firefox и т. д.

Рассмотрим базовые функции этого приложения и как установить его на машине, где хранится личный информационный архив. Это может быть или домашний сервер, или VPS.

Читать дальше →

+41

SmoothDenis 31 мар в 09:46

S3-совместимые хранилища: как собрать свой конструктор

11 мин

9.5K

Блог компании Точка БанкХранение данных *

✏️ Технотекст 7

В одном из больших кластеров S3 в Точке хранится 110 терабайт полезных данных. Это не много по объёму, но он распределён среди 600+ миллионов файлов. Стоимость работы системы оценивается более чем в миллион рублей в месяц — это с учётом фактора репликации, бэкапов, основной системы хранения и резерва ресурсов. Это пятое место по стоимости среди всех сервисов.

Мы выбрали SeaweedFS, потому что это удобный конструктор, который позволяет загружать файлы любого размера, легко масштабироваться без деградации скорости доступа и надёжно защищать данные от потерь. В статье рассказываю, каким должно быть идеальное S3-хранилище для миллионов файлов, и почему нам не подошли Ceph и Minio.

+15

alizar 31 мар в 09:01

Более быстрые хеш-таблицы: претенденты на место SwissTable

Средний

11 мин

16K

Блог компании RUVDS.comАлгоритмы * Математика * Научно-популярноеХранение данных *

Обзор

24 ноября 2021 года на сайте ArXiv.org была опубликована научная статья «Крошечные указатели» (Tiny Pointers) с описанием новой структуры данных — «крошечных» указателей, которые указывают путь к фрагменту хранимых данных и занимают меньше памяти, чем традиционные указатели.

Осенью 2021 года эту статью заметил Андрей Крапивин (Andrew Krapivin), студент Ратгерского университета в Нью-Джерси, и не придал ей особого значения, пишет Quanta Magazine, журнал о последних достижениях в математике (перевод статьи на Хабре). Только через два года он нашёл время, чтобы внимательно ознакомиться с материалом. И понял, насколько это прорывное изобретение, если применить его для оптимизации хеш-таблиц.

Данная тема уже упоминалась на Хабре, но заслуживает более подробного обсуждения.

Читать дальше →

+74

AlexWriter 31 мар в 06:00

Бинарный формат вместо текста

Средний

9 мин

6.2K

Высоконагруженные системы * Rust * Хранение данных *

Обзор

Как быстро, без боли и страданий организовать хранение структурированных данных в бинарном формате. А затем и их передачу при необходимости. А потом, немного подумав, ещё их обнаружение в «замусоренном» потоке.

+10

beeline_cloud 30 мар в 16:07

История «World Backup Day» [и компактный дайджест решений] — хороший повод сделать резервную копию

Простой

7 мин

1.8K

Блог компании Beeline CloudИнформационная безопасность * Хранение данных * История IT

Ретроспектива

31 марта — это день, призванный объединить тех, кто делает бэкапы, и тех, кто их пока не делает. И как можно быстрее сократить количество последних. Мы в beeline cloud решили затронуть эту тему и поговорить о том, когда и кто первым начал праздновать «День резервного копирования», и как развивалась эта традиция.

+13

SLY_G 29 мар в 07:57

Можем ли мы хранить данные в ДНК?

Простой

10 мин

1.6K

Перевод

Зеттабайт — это триллион гигабайт. Это очень много, но, по одной из оценок, в этом году человечество произведёт сто восемьдесят зеттабайт цифровых данных. Данные копятся: PowerPoints и селфи; видео, снятое камерами; электронные медицинские карты; данные, извлечённые из смарт-устройств или собранные телескопами и ускорителями частиц; резервные копии и резервные копии резервных копий. Куда всё это девать, сколько и как долго хранить? Эти вопросы не дают покоя учёным-компьютерщикам, управляющим мировыми хранилищами данных. Для них облако — это не клочок тумана, а физическая система, которую нужно создавать, оплачивать и обслуживать.

Эксперты по хранению данных говорят о температурной шкале данных. На одном конце находятся «горячие» данные — Википедия или ваш банковский баланс, — которые должны появляться на экране практически мгновенно. На другом — «холодные» данные, которые могут находиться в нескольких минутах или даже днях от кончиков ваших пальцев. «Тёплые» данные, расположенные посередине, например ваши старые фотографии, могут быть получены за несколько секунд. Большинство данных — «холодные», и многие из них, вероятно, можно стереть без последствий. Однако некоторые из них могут однажды оказаться критически важными, например, в уголовном деле, и их потенциальная ценность означает, что большая часть должна быть сохранена в целости и сохранности в течение неопределённого времени.

+12

Xcom-shop 28 мар в 09:07

ADATA сделала супер-компактный SSD с USB-A и USB-C, который меньше и легче обычной флешки. Он весит меньше 8 граммов

4 мин

7.4K

Блог компании Группа компаний X-ComХранение данных *

Внешний накопитель — явно не тот аксессуар, который захочется всюду носить с собой. Он занимает место, цепляется за другие предметы, а иногда и вовсе теряется среди вещей. И это притом, что большинство из них чаще всего требует переходник для подключения к современным ноутбукам, смартфонам или планшетам, которые попросту лишены разъема USB-A. Добавьте к этому необходимость иметь достаточно места для хранения данных и приемлемую скорость передачи файлов, и выбор подходящего накопителя станет практически непосильной задачей. Но у ADATA есть решение.

+17

VTB 28 мар в 07:19

Секционирование в PostgreSQL. Архитектура корзинного хранения данных. (Basket partitioning)

Средний

9 мин

5.7K

Блог компании ВТБPostgreSQL * Серверная оптимизация * Базы данных * Хранение данных *

Кейс

Привет, ХАБР! Я Хаймин Владимир, эксперт по системам управления базами данных PostgreSQL в ВТБ. Когда размеры таблиц становятся большими — обслуживание и доступ к данным становятся непростой задачей. Я хочу поделиться методикой организации секционирования в PostgreSQL, которая существенно упростила нам жизнь с таблицами большого размера, хранящие, например, исторические данные по датам. Назовем ее условно «Корзинным секционированием» (Basket partitioning). Данная технология реализована архитектурно, без необходимости расширения функционала сторонними инструментами или расширениями только штатными средствами ванильных версий PostgreSQL. Такая система хранения реализована, например, в проекте мониторинга pg_awr для упрощения удаления старых данных.

Секционирование в PostgreSQL

Секционирование — это техника разбиения одной большой таблицы базы данных (БД) на несколько меньших, логически связанных частей, называемых секциями. При этом, такая таблица с точки зрения ППО выглядит как одна большая таблица.

Современные версии PostgreSQL имеют достаточно развитые средства для работы с секционированными таблицами. При этом, несмотря на то что страдает автоматизация, например, создания и удаления секций, при правильной организации хранения данных работать с такой БД достаточно удобно. И эти удобства минимизируют вероятные ошибки.

PostgreSQL начиная с 10 версии, помимо наследования, поддерживается декларативное секционирование: диапазонное, списочное, хэш-секционирование.

Какие бывают базы данных по методу их наполнения и использования?

+11

aton4eg 28 мар в 07:02

Как создать дедуплицирующую файловую систему с нуля? Опыт TATLIN.BACKUP

Средний

11 мин

5.3K

Блог компании YADROLinux * Хранение данных * Резервное копирование *

Кейс

Как сделать высоконагруженную систему хранения данных в сжатые сроки? Чтобы она не падала через день, не теряла данные и не поглощала ресурсы, как Гулливер провизию в амбаре лилипутов. А еще нужно реализовать дедупликацию и заложить будущий функционал на этапе создания архитектуры. Неплохо бы и стоимость хранения гигабайта снизить до минимума, а скорость передачи данных наоборот, увеличить до второй космической.

Меня зовут Ростислав, я эксперт по разработке ПО отдела систем обработки данных в YADRO. Расскажу о вкладе нашей команды в разработку TATLIN.BACKUP: как мы с нуля создали дедуплицирующую файловую систему, а также какие вызовы преодолели за два года разработки и 200 тысяч строк кода.

+25

adrozhzhov 27 мар в 11:45

NVME over RoCE. Примеряем на себя

Средний

18 мин

3.2K

Блог компании билайнХранение данных *

Кейс

Так повелось, что по итогам своих опытов с различными технологиями подключения дискового пространства писал сюда небольшие заметки:

Настройка NVME over TCP — для тех, кому надо подключить больше 1 диска единственной конфигурации из всех примеров в Сети.

Попытка разогнать сеть для БД со 100 до 200Гб/c или «failure is always an option».

Настройка iScsi в L3-сети для эффективной утилизации возможностей канала и СХД.

Поскольку появился новый свежий опыт по настройке и тестированию подключения еще одним способом, и все уже собрано для внутренней wiki-статьи, решил продолжить традицию.

GRADDATA 27 мар в 09:56

Объектное хранилище S3: практическое руководство без лишних слов

Простой

4 мин

12K

Блог компании VKБлог компании VK TechХранение данных * DevOps *

Туториал

✏️ Технотекст 7

Объектное хранилище S3 стало стандартом для работы с большими объемами данных в облаке. Оно позволяет хранить файлы любого типа, легко управлять доступом и интегрироваться с другими сервисами. Но давайте без маркетинговых лозунгов: зачем это действительно нужно?

Меня зовут Станислав Погоржельский, я технологический евангелист VK Cloud, и в том числе в рамках своей работы рассказываю про наши облачные и on-prem решения. В этой статье мне захотелось поделиться, как именно объектное хранилище S3 помогает решать реальные задачи.

+36

Mostransproekt 24 мар в 21:15

Не окей, гугл: как сделать поисковик для работы с служебными презентациями

Средний

11 мин

1.4K

Блог компании МосТрансПроектИскусственный интеллектХранение данных * Big Data *

Кейс

Привет, Хабр! Это снова команда «МосТрансПроекта». Мы постоянно работаем с информацией и знаниями, которые храним в служебных презентациях. Чтобы ими было удобней пользоваться и извлекать данные, мы решили создать удобный сервис хранения документов с поиском. Задача оказалась непростой, и в этой статье мы расскажем, как её решили. Текст будет интересен всем, кто занимается структурированием данных, поисковыми машинами и ИИ.

olegbunin 24 мар в 09:01

Эволюция Redis в Valkey 8.0: разбираем архитектурные изменения с точки зрения производительности

Средний

12 мин

12K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании Конференции Олега Бунина (Онтико)Хранение данных * Базы данных * Open source *

Обзор

В сентябре 2024 года вышел релиз Valkey 8.0 — это key-value-хранилище также часто называют BSD-клоном Redis. В отличие от Redis, Valkey изначально создавался как опенсорс-проект. У него нет энтерпрайз-версии, а значит, развитие не сдерживается коммерческими ограничениями.

Весной 2024 года, когда началась активная работа над форком, команда разработчиков смогла принять и стабилизировать ряд патчей, которые заметно улучшили производительность по сравнению с Redis 7.2.

В этой статье Евгений Дюков, разработчик Managed Databases в Yandex Cloud, разбирает некоторые из изменений и делится результатами проведённых бенчмарков, которые позволяют оценить, как именно новые патчи повлияли на производительность — и в позитивном, и, в некоторых случаях, в негативном ключе. Особенно интересно будет тем, кто ждёт релиз Valkey 8.1 этой весной.

+33

ntsaplin 24 мар в 07:01

В России сейчас дефицит стойко-мест в ЦОДах, и он будет расти

7 мин

10K

Блог компании RUVDS.comУправление проектами * ХостингХранение данных *

В 2022-м из российских дата-центров стали уходить зарубежные клиенты. Казалось, освободилось очень много места и ЦОДы скорее думали, как выжить при таких потерях. Крупные игроки могут подтвердить, что от них ушли такие якорные клиенты, как Apple, MS и подобные, которые платили хорошие деньги. В первое время никто не знал, что делать — продавать бизнес или как-то выкручиваться.

В этот момент новые ЦОДы никто не начинал строить, потому что не было смысла. Зачем строить, если клиенты ушли? Некоторые длительные проекты, типа ЦОДа МТС с 7-летним циклом строительства, продолжались, но и они сорвали все сроки.

Но очень быстро тренд развернулся. Оказалось, что стоек стало не хватать и даже не надо было сильно вкладываться в маркетинг. Началась волна регуляторики. В 2023 году всех окологосударственных начали возвращать в российские дата-центры. Закон о приземлении (который вышел ещё в 2021 году и вступил в силу в январе 2022) сначала был мягким, обязывал компании просто открыть офис. Но к 2024 году это переросло в реестр хостеров со всеми вытекающими.

Госкомпаниям дали понять, что хранить данные за рубежом не надо. Пошёл отток оттуда. Потом проблемы с платежами — ушли всякие Dropbox и другие сервисы, которые начали здесь дублировать. Поначалу были обходные пути, но они постепенно закрывались. Можно было платить через казахские карты, но недавно многим релокантам их заблокировали.

Ну а потом как вишенка размером с КамАЗ на торте пришёл инференс нейросетей.

В итоге ситуация очень странная: новые ЦОДы никто сейчас не строит и не будет в ближайшие годы, а дефицит места растёт.

Читать дальше →

+55

PaaLadin 22 мар в 11:34

Всё пропало! Google удалил хронологию пользователей с карт

Простой

2 мин

18K

Google API * Геоинформационные сервисы * Информационная безопасность * Микросервисы * Хранение данных *

Кейс

Сервис Google - Maps Timeline позволял пользователям легко посмотреть историю своих перемещений на Гугл картах, с привязкой к посещённым местам, сделанным фотографиям.

Сегодня Гугл убил его, а вместе с ним и историю моих путешествий за последние несколько лет...

Поплакать вместе с автором...

+31

THEHosting 21 мар в 14:26

Grocy: идеальный self hosted сервис для хозяйственных технарей

Простой

4 мин

14K

Блог компании THE.HostingХранение данных *

Обзор

Grocy — это open-source сервис, который помогает отслеживать запасы, управлять списками покупок и распределять домашние обязанности. В этом обзоре — как он работает, чем удобен и почему его лучше установить на сервер.

GeorgeNordic 21 мар в 13:30

Управление качеством данных

Средний

4 мин

898

Data Engineering * Терминология ITХранение данных *

Итак, у нас есть данные, и есть требования к ним. От кого? От тех, кто будет ими пользоваться. Если те, кто ставит задачу говорят что "данные плохие" и не могут сформулировать критерии к качеству данных, им можно их подсказать, подсмотрев в предыдущей статье. Таким образом, управление качеством данных - это, в первую очередь, методология, которая обеспечивает некий уровень качества в отношении выбранных данных.

Управление качеством данных - это постоянный процесс. Да, для начала неплохо разобраться с уже имеющимися данными, но наша задача сделать так, чтобы все новые данные, попадающие в систему, проверялись, валидировались, насыщались и, в итоге, соответствовали предъявляемым к ним требованиям. Управление качеством, кстати, является важной частью управления Нормативно-Справочной информацией, MDM (Master Data Management).

Как же сделать так, чтобы данные попадали в системы уже "чистыми"? Думаю, что самый оптимальный способ - это правильно настроить поля ввода, не допуская ввод заведомо некорректный значений, а также предлагать автозаполнение по возможности: например, выбор адреса доставки предлагать из КЛАДР, а данные о компании автоматически заполнять используя специальные сервисы. Таким образом, и людям надо будет вводить меньше информации, и вероятность ошибки будет гораздо меньше.

Bright_Translate 21 мар в 13:01

О скрытии сообщений в эмодзи и взломе казначейства США

Средний

7 мин

16K

Блог компании RUVDS.comPostgreSQL * Информационная безопасность * Программирование * Хранение данных *

Кейс

Перевод

30 декабря 2024 года, пока большинство из нас суетились в преддверии празднования Нового года, Казначейство США готовило для Финансового комитета Сената США важное уведомление. В нём сообщалось, что его системы, которые, очевидно, содержат особо чувствительные конфиденциальные данные, были взломаны группой правительственных хакеров Китая.

Даже не знаю, как пропустил эту новость. Обычно я всё активно отслеживаю, особенно уязвимости опенсорсного ПО, которые касаются казначейства моей страны 🤷‍♂‍

И это ещё не самое безумное. Сейчас я расскажу вам, как именно они это сделали!

Читать дальше →

+83

1 2 ...

15 16

18 19 ...

166 167

Хранение данных *

Отказоустойчивость в MinIO

Мультирегиональность в Selectel S3: работаем с регионами SPB и MSK из Python

Менеджер закладок на своём сервере

S3-совместимые хранилища: как собрать свой конструктор

Более быстрые хеш-таблицы: претенденты на место SwissTable

Бинарный формат вместо текста

История «World Backup Day» [и компактный дайджест решений] — хороший повод сделать резервную копию

Можем ли мы хранить данные в ДНК?

ADATA сделала супер-компактный SSD с USB-A и USB-C, который меньше и легче обычной флешки. Он весит меньше 8 граммов

Секционирование в PostgreSQL. Архитектура корзинного хранения данных. (Basket partitioning)

Как создать дедуплицирующую файловую систему с нуля? Опыт TATLIN.BACKUP

NVME over RoCE. Примеряем на себя

Объектное хранилище S3: практическое руководство без лишних слов

Ближайшие события

Не окей, гугл: как сделать поисковик для работы с служебными презентациями

Эволюция Redis в Valkey 8.0: разбираем архитектурные изменения с точки зрения производительности

В России сейчас дефицит стойко-мест в ЦОДах, и он будет расти

Всё пропало! Google удалил хронологию пользователей с карт

Grocy: идеальный self hosted сервис для хозяйственных технарей

Управление качеством данных

О скрытии сообщений в эмодзи и взломе казначейства США

Вклад авторов