Обновить
512K+

Хранение данных *

Что имеем, то храним

220,68
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Неудобные вопросы про бэкап PostgreSQL: где заканчивается СУБД и начинается оркестрация

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5K

Как только очередной вендор обещает «убить нативные тулзы PostgreSQL», где-то устало вздыхает DBA. Попытка сделать бэкап PostgreSQL «лучше самого PostgreSQL» — это изначально неверная постановка задачи. 

Универсальный файловый агент не притворяется глубоко PostgreSQL-aware решением. Его задача в другом: взять нативные механизмы СУБД и превратить их в управляемый и наблюдаемый процесс на уровне всей инфраструктуры.

Вокруг такого подхода обычно сразу возникают неприятные, но правильные вопросы. Кто отвечает за консистентность? Где на самом деле живет PITR? Что будет, если потеряется WAL-сегмент? Можно ли восстановить одну таблицу, а не весь инстанс? И зачем вообще нужен внешний слой поверх pg_probackup, если у PostgreSQL уже есть свои зрелые инструменты?

Под катом — честный разговор о границах ответственности между PostgreSQL и внешней платформой.

Кат

Новости

Как AWS S3 обеспечивает скорость 1 петабайт в секунду при помощи медленных HDD

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели9.2K

Все знают, что такое AWS S3, но немногие осознают масштабы, в которых он работает, и те усилия, которые понадобились, чтобы этого добиться.

По сути, это масштабируемый сервис многопользовательского хранилища с API для сохранения и извлечения объектов, обеспечивающий крайне высокую доступность1 и надёжность2 по относительно низкой цене3.

Масштабы

• 400+ триллионов4 объектов

150 миллионов запросов в секунду

> 1 ПБ/с пикового трафика

Десятки миллионов дисков

А что лежит в основе всего этого?

Жёсткие диски.

Способы достижения S3 таких масштабов — это настоящее инженерное чудо. Чтобы понять и оценить систему, нужно сначала оценить её базовый строительный блок — жёсткий диск.

Жёсткие диски (HDD) — это старая, уже выходящая из моды технология, во многом вытесненная SSDs. Жёсткие диски хрупки физически, ограничены по IOPS и имеют высокие задержки.

Однако благодаря им возможно то, на что пока неспособны флэш-диски: крайне дешёвая экономика хранения.

Читать далее

Пользователь у руля: кооперативы, общины и профсоюзы — какими бывают социально ориентированные подходы к хранению данных

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели10K

С конца нулевых в ИТ-кругах ведутся разговоры о социально ориентированных облачных хранилищах, призванных усилить контроль пользователей над своими данными. Мы в Beeline Cloud решили взглянуть на «альтернативные модели управления данными» — например, как выглядит профсоюз владельцев данных и для чего он нужен — и обсудить, почему такие форматы (пока еще) не получили широкого распространения.

Читать далее

StarRocks в облаке Selectel. Проверяем, как аналитическая СУБД ведет себя под нагрузкой

Время на прочтение15 мин
Охват и читатели7.6K

Идея развернуть аналитическую базу данных в облаке часто выглядит привлекательно — до того момента, пока администратор не начинает прикидывать реальную нагрузку в продакшене, а бизнес — итоговую стоимость. Именно здесь у многих появляются сомнения, и выбор все чаще смещается в сторону более осязаемых решений — например, выделенной инфраструктуры, где проще заранее оценить пределы производительности и стоимости.

Я Антон Стеблянко, архитектор больших данных. В статье расскажу, как совместно с командой из компании «СР-ТЕХ» протестировали в облаке Selectel российский форк СУБД StarRocks Pro и проверили, насколько система подходит в качестве основы для построения аналитического хранилища данных.

Читать далее

Хаос в объектах: испытания Garage и SeaweedFS

Уровень сложностиСредний
Время на прочтение34 мин
Охват и читатели6.1K

С конца 2025 года известная многим, кто работает с object storage, система Minio начала издавать тревожные сигналы: разработчики полностью перестали принимать новые правки, прекратили обновлять Docker образ, убрали веб-интерфейс из опенсорсной версии, а с 13 февраля проект на GitHub полностью заморожен и стал архивом. Можно провести связь с покупкой Broadcom компании VMware, которой и принадлежит Minio, и последующим выжиманием денег из клиентов.

Но мы не будем строить теории, есть вопрос интереснее: кто убережёт наши объекты, если не Minio? Давайте попробуем узнать на примере Garage и SeaweedFS. Мы будем бросать эти системы об стену, и смотреть, что получится на выходе. Так работает chaos testing. Наверное.

Читать далее

Путь Samurai: от защищённой флэшки — к кнопке стирания серверов

Время на прочтение6 мин
Охват и читатели5.5K

Олды, возможно, помнят серию постов о «Самураях» — российской разработке защищённых флэшек 2011-2013 годов. Путь «Самурая» вскоре после этого прервался, но не закончился: 10 лет спустя, «Самураи» — это уже не одни флэшки, а целая линейка систем уничтожения данных, по нажатию кнопки стирающих от ноутбука до серверной стойки. И это только часть железных и софтверных решений для по шифрованию, анонимизации и уничтожению данных, которые с тех пор начали выпускаться в России: от защищённых флэшек до защищённых жёстких дисков, защищённых анонимные смартфоны «с секретом» и утилизаторов жёстких дисков и SSD. За прошедшие 15 лет выяснилось, что системы защиты и безвозвратного уничтожения данных — это целая отрасль с огромным спросом и массой востребованных решений.

А ещё — возможно, последняя незарегулированная отрасль российского IT: оказывается, разработка тревожных кнопок моментального уничтожения данных не требует никаких лицензий ФСБ, сертификаций ФСТЭК или реестров Роскомнадзора, потому что, согласно 152-ФЗ, оператор обязан уничтожать персональные данные необратимо. Т.е. с точки зрения закона о персональных данных, функция безвозвратного уничтожения данных — это тоже защита данных. Таким образом, на пересечении законодательной благосклонности и пользовательского спроса, образовалась одна из самых необычных ниш российского ИТ, с которой я сталкивался.

Читать далее

Блокчейн как инфраструктура E-Health: новая модель управления данными в здравоохранении

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели4.2K

Представьте: вы обращаетесь в три разные клиники — и в каждой вас спрашивают об аллергиях заново. Врач не видит исследования, сделанные месяц назад в другом учреждении. Страховая не может верифицировать процедуру без телефонного звонка в регистратуру. Запись в карте исчезает при переезде или смене больницы — и никто не несёт за это ответственности. Кто и когда вносил правки в вашу историю болезни — установить почти невозможно.

Это не проблема технологий. Это проблема архитектуры доверия: данные существуют, но им нельзя доверять — ни их сохранности, ни их подлинности, ни тому, кто к ним имел доступ.

Цена этой проблемы измеримa. Согласно отчёту IBM Cost of a Data Breach 2023, средняя стоимость утечки данных в здравоохранении составляет $10,93 млн — почти вдвое больше, чем в финансовом секторе ($5,9 млн) IBM Security, 2023. Но финансовые потери — лишь следствие. Причина глубже: базовая архитектура большинства медицинских информационных систем воспроизводит подходы 1990-х годов: централизованные реляционные базы данных, закрытые проприетарные форматы, точечная интеграция через HL7 или FHIR-адаптеры (HL7 FHIR — международный стандарт обмена медицинскими данными; FHIR, Fast Healthcare Interoperability Resources — его актуальная версия).

Важно: стандарты обмена данными типа FHIR решают проблему формата, но не проблему доверия. Они не гарантируют, что переданные данные не были изменены. Они не дают пациенту контроль над тем, кто читает его карту. И они не позволяют двум конкурирующим страховщикам верифицировать один и тот же факт, не открывая друг другу свои базы данных. Именно здесь классические архитектуры достигают структурного предела.

Читать далее

Как отчисление одного студента может закрыть всю кафедру. Нормализуем БД и избавляемся от аномалий

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели13K

Привет Хабр! В прошлой статье мы детально разобрали функциональные зависимости. Возможно, после нее у вас, как и у многих, остался закономерный вопрос: зачем нам вообще так париться, выискивая эти зависимости? Как это применяется в проектировании баз данных?

Естественно, можно спроектировать базу данных, вообще не заботясь ни о каких правилах. И она даже будет работать! Все будет прекрасно ровно до первого ее реального использования в продакшене. При проектировании «абы-как» возникают три типовые проблемы: избыточность, аномалии обновления, аномалии удаления.

И вот это уже плохо.

Читать далее

Запись, которую нельзя стереть: архитектура государственного архива от Лейбница и Деррида до Blockchain

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели5.8K

Когда речь заходит об устойчивости государства, мы обычно думаем о праве, легитимности власти, выборах — о том, что держит общество вместе. Гораздо реже в этот разговор включается вопрос о том, где и как государство хранит память о том, что оно делало: кому выдавало права, что фиксировало как собственность, какие договоры заключало.

Между тем именно этот вопрос — вопрос об архитектуре государственных записей — оказывается, при ближайшем рассмотрении, одним из наиболее политически значимых. История показывает устойчивую закономерность: часто в периоды конфликтов и трансформаций одним из первых объектов атаки становятся именно реестры.

Читать далее

Reference Data Management по-русски: что мы называем НСИ и почему это не всегда RDM

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели4.9K

В российских проектах НСИ часто выходит далеко за рамки справочников и включает задачи MDM и Data Quality. Разбираемся, чем это отличается от классического RDM и к чему это приводит.

Читать далее

Можно ли запустить корпоративную BI+ETL‑систему за 1,5 млн рублей? Часть 1: PolyAnalyst ETL+BI

Время на прочтение17 мин
Охват и читатели4K

Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». В 2025 году мы столкнулись с частым запросом: бизнес хочет внедрить отечественную BI‑систему, при этом бюджет плюс‑минус 1,5 млн рублей. Мы решили изучить рынок и найти подходящее ПО, а заодно рассказать тем, кто тоже подбирает продукт, о результатах нашего исследования. В первом обзоре — PolyAnalyst. Подробно разбираю архитектуру, компоненты, источники данных, ETL‑пайплайны, визуализацию и так далее

Читать далее

Как мы прокачиваем HealthScore для 6000+ витрин и готовим DWH к AI

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели12K

Привет! Меня зовут Дмитрий Мележиков, я отвечаю за BI в домене Маркетинг и участвую в общих DWH/BI-проектах Авито.

В статье рассказываю, как мы построили систему HealthScore — метрику здоровья данных. От математической модели и пайплайна сбора метаданных до процесса массовой очистки. А ещё вы узнаете, почему HealthScore и сертификация витрин важны для AI Copilot. Без белого списка доверенных витрин ассистент может масштабировать ошибки так же быстро, как и инсайты. 

Читать далее

Разработка DWH для начинающих

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели8.2K

В статье рассматриваем что такое хранилище данных, основы их разработки: архитектура, основные слои данных и подходы для работы с ними, ETL и ELT, а также основные модели данных. Материал поможет начинающим разработчикам понять принципы построения аналитических систем и роль разработчика DWH.

Читать далее

Ближайшие события

Зарубежные хостинги блокируют в России — переехал на Яндекс Cloud за 0 ₽/мес с помощью Claude Code

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели25K

Vercel из России работает через раз. Sweb и Beget — от 300 руб/мес за раздачу файлов. Оказалось, что Яндекс Cloud отдаёт Object Storage, DNS, SSL и Cloud Functions бесплатно. Перенёс сайт за один день с помощью Claude Code + два самописных скилла для yc CLI и Яндекс Метрики.

Читать далее

Они пытались заменить дискету, но проиграли флешке и CD

Время на прочтение8 мин
Охват и читатели19K

Когда-то именно дискета была главным способом обмена данными. Игры, софт, рабочие файлы — все это путешествовало с компьютера на компьютер на дискетах. Да, с сегодняшней точки зрения это было, мягко говоря, не очень удобно и не очень надежно. Но и альтернатив особо не было. 

Ограничения начали давить уже в 90-х. Нужен был наследник. Технология или решение, которое примет на себя ношу хранения и обмена данными под стать изменившимся запросам. И многие компании бросились его создавать.

Так началась эпоха «убийц дискеты», когда каждый уважающий себя производитель считал своим долгом предложить достойную альтернативу. Iomega, Imation, Sony, SyQuest — все они предлагали свое видение идеального носителя. 

В этой статье мы вспомним пятерых ярких претендентов, которые всерьез метили на трон дискеты, но по разным причинам сами остались за бортом истории.

Читать далее

Типичный сервис: чиним одно, «ломаем» другое и решаем две проблемы сразу

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели6.7K

Привет, Хабр!

В этой статье мы расскажем о заочной борьбе с разработчиками объектного хранилища Hitachi Content Platform. Сначала мы столкнулись с критическим заполнением файловых систем индексов, а в процессе лечения обнаружили вторую, гораздо более глубокую проблему — одна из нод кластера фактически выпала из схемы хранения данных, оставаясь при этом «зелёной» в консоли. Материал будет полезен инженерам, работающим с HCP и другими объектными СХД, а также всем, кто любит истории о нетривиальных расследованиях в недрах корпоративного ПО.

Читать далее

Гексафторид вольфрама подорожал почти вдвое — и это бьет по всему рынку чипов

Время на прочтение5 мин
Охват и читатели13K

С начала 2026 года резко выросли цены на гексафторид вольфрама — один из ключевых газов, используемых при производстве микросхем. Крупные поставщики из Азии почти одновременно пересмотрели контракты с фабриками, объясняя это подорожанием сырья и высоким спросом со стороны производителей памяти и процессоров. В результате выросла стоимость обработки кремниевых пластин, и этот рост постепенно начинает отражаться на всей электронике — от серверов до обычных смартфонов. А если учесть, что цены и так растут, то текущая тенденция может вывести ценник чипов просто на орбиту. Давайте разберемся в ситуации.

Что случилось?

OmniOS как основа «домашнего облака»

Время на прочтение9 мин
Охват и читатели12K

Где-то в конце лета 2025-ого я собирал NAS-сервер. Чисто для себя, под свои нужды и хотелки, и совершенно не планировал что-то публично описывать. Всю необходимую информацию искал через google, а тот раз-через-раз в результатах поиска подкидывал вот эту статью:

Хардкорный NAS: как собрать хранилище на OmniOS и не сойти с ума

Я долго проходил мимо этой ссылки, ибо сам заголовок вызывал массу вопросов, и почему-то казалось, что несогласие с автором заставит меня написать что-то в ответ. Так и получилось после прочтения. Я зачем-то зарегистрировался на Хабре и пишу эти буквы.

Читать далее

Почему российский бизнес проигрывает битву за информацию и как это исправить. Введение и Часть 1

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.5K

Российский бизнес переживает эпоху «Великого перехода». Санкционное давление и уход западных вендоров заставили компании в спешке мигрировать на отечественное ПО. Но гонка за новыми платформами обнажила старую как мир проблему: наши системы полны «мусора».

На многочисленных проектах по миграции с SAP и западных CRM на российские решения наблюдается одна и та же картина: бизнес ждет «магии» от новой системы, а получает перенос хаоса. Аналитики и ИТ-специалисты приходят к выводу: битва за качество данных проигрывается не из-за отсутствия талантливых разработчиков, а потому что бизнес-анализ как дисциплина в России до сих пор не воспринимает данные как стратегический актив.

В этом цикле будут разобраны три фатальные ловушки, в которые попадают компании, и главное — предложены пошаговые рецепты спасения, основанные на реальной практике и современных методологиях.

Читать далее

Шесть лет без электричества: USB-накопители не потеряли ни байта

Время на прочтение5 мин
Охват и читатели18K

USB-флешки многие воспринимают как временную вещь: скинули на них пару файлов — отчет, фотографии, видео — и бросили в ящик стола. Есть распространенное мнение, что долго так хранить данные нельзя, через год-два они начинают портиться. Энтузиаст по имени Зак Вэнс решил проверить, правда ли это, и в 2020 году запустил простой эксперимент. Он записал данные на несколько флешек, закинул в коробку и теперь время от времени проверяет, что с ними происходит. Результаты противоречат устоявшемуся мнению. Оказалось, что при обычном хранении и нормальном качестве накопителей информация может сохраняться гораздо дольше, чем принято думать. 

Читать далее
1
23 ...