Хранение данных *

Что имеем, то храним

СтатьиПостыНовостиАвторыКомпании

Volga-software 2 ноя 2024 в 09:01

Восстановление данных с зашифрованного Linux тома с помощью cryptsetup

3 мин

1.9K

Восстановление данных * Хранение данных *

Туториал

В этой статье мы разберем восстановление данных с зашифрованного с помощью LUKS тома NAS.

Внимание: в самом худшем случае для восстановления данных этим способом потребуется свободное место равное двум объемам зашифрованного раздела. Например, если у вас есть зашифрованный раздел на 1 ТБ, то необходимо иметь 2 ТБ свободного места. В лучшем случае (незначительные повреждения) понадобится один объем свободного дискового пространства. Также обращаем внимание, что вам НУЖНО ЗНАТЬ пароль, который использовался для шифрования тома

Для примера мы будем использовать диск от QNAP с зашифрованном разделом.

Copernicus 2 ноя 2024 в 06:00

Файловая система без фокусов: как hard links и XOR сэкономят ваши гигабайты

Простой

5 мин

7.8K

Python * Научно-популярноеОперационные системыWindows * Хранение данных *

Туториал

Для начала нужно понять главное - файлов не существует.
А потом на примере простых манипуляций разобрать что такое hard links, чем может быть полезен непонятный XOR и как это всё уживается в системах копирования и снимков

digitalsibur 1 ноя 2024 в 10:18

Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа

Средний

6 мин

2.5K

Блог компании Цифровой СИБУРХранение данных * Промышленное программирование * Data Engineering * Big Data *

Кейс

В СИБУРе много данных, которые текут в режиме реального времени с многочисленных датчиков на разных производствах, эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. И от качества инфраструктуры для работы с данными зависит рентабельность производств и прибыль компании в целом, а это жизненно важные показатели.

В небольшом цикле из двух статей мы разберём опыт СИБУРа в создании, поддержке и развитии DQ (Data Quality — качество данных) сервиса для DWH (Data Warehouse — хранилище данных) в условиях санкций и исчезающих вендоров проверенных и привычных решений.

Рассказывать об этом опыте будет Александр Бергер, Lead DQ Analyst в Цифровом СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса на решениях вендора, который решил покинуть рынок РФ в разгар рабочего процесса.

Beeline_tech 1 ноя 2024 в 09:07

Система сквозного логирования с передачей единого идентификатора между независимыми задачами Airflow

Средний

7 мин

40K

Блог компании билайнBig Data * Хранение данных *

Туториал

Привет! Меня зовут Никита Хилов, я работаю в билайне уже более десяти лет. Начинал я работать с поддержкой систем фиксированного фиксированного биллинга, впоследствии я отвечал за разработку и поддержку различных расчетов по системам управленческой или корпоративной отчетности. А сейчас я работаю в роли тимлида дата-инженеров в блоке по архитектуре и инфраструктуре данных и отвечаю за управление разработкой и сопровождением программных продуктов компании по различным точкам бизнес-приложения.

Итак, какие же вопросы мы обсудим в этой серии постов. Сегодня я хочу осветить вопросы касаемо того, как же нам организовывать, компоновать и в принципе заставить работу систему журналирования наших расчетов для таких случаев, когда наш общепринятый ключ периодики, на котором мы обычно строим свои расчеты, перестает быть однозначным идентификатором той итерации процесса подготовки данных, на которую мы сейчас смотрим, и от которых мы ждем результаты.

Мы обсудим, например, когда такое происходит и что для этого является катализатором. Рассмотрим механики и механизмы, которые дают возможность связывать независимые процессы и цепочки подготовки данных в единое целое.

И в дополнение расскажу, как мы эту проблему решали в своем продукте.

Но прежде всего давайте определим для чего нам это, в принципе, нужно.

MaFrance351 1 ноя 2024 в 08:05

Восстанавливаем данные с кассеты от старого стримера

Средний

8 мин

10K

Блог компании Timeweb CloudКомпьютерное железоНакопителиСтарое железоХранение данных *

Ретроспектива

Приветствую всех! Многие давно привыкли, что ленточные накопители — что-то высоконадёжное и предназначенное для долговременного использования. Но есть один стандарт, про который сказать так как-то не получается, и имя ему — QIC. Странная конструкция стримера и кассеты, не слишком уж долгий срок хранения — всё это про него.

Так получилось, что как-то раз ко мне попал стример такого типа и кассета к нему, на которой ещё оставались какие-то данные. Что же с ним можно сделать? Давайте разбираться.

Итак, в сегодняшней статье поговорим про стримеры стандарта QIC и miniQIC. Попутно разберёмся, как они работают и в чём их фатальный недостаток, попробуем восстановить данные с архива тридцатилетней давности и узнаем, почему нельзя пользоваться проприетарным софтом для резервного копирования.

Читать дальше →

+81

k0rsakov 1 ноя 2024 в 06:00

Инфраструктура для Data-Engineer DBT

Простой

16 мин

6.9K

Data Engineering * Хранение данных * Big Data * IT-инфраструктура *

Туториал

dbt является мощным фреймворком, который включает в себя два популярных языка: SQL + Python.

При помощи dbt можно создавать разные "слои" данных или выделить dbt только под один слой, к примеру dm.

При помощи понятного и всем известного SQL интерфейса можно создавать разные модели для вашего DWH или Data Lake.

vladislav_shevchenko 31 окт 2024 в 06:55

Выбираю Open Source БД для себя

Простой

6 мин

8.2K

Блог компании Альфа-БанкOpen source * PostgreSQL * Базы данных * Хранение данных *

Обзор

Задача такая: искал Open Source БД для своего пет-проекта. Решил посмотреть в интернете новые решения в рамках БД. После чтения статей и отбора из 6-7 БД остались три (3), которые понравились лично мне. Больше ничего путного не нашел.

Почему именно эти? Во-первых, они Open Source, а во-вторых, у них есть ответы на два главных моих вопроса «Для чего это нужно?» и «Работает ли из коробки?».

Давайте покажу на примерах.

+36

PatientZero 30 окт 2024 в 08:36

Неформатированный текст не так уж прост

Простой

7 мин

Текстовые редакторы и IDE * Хранение данных * Программирование *

Обзор

Перевод

Когда мы взаимодействуем с текстовым файлом при помощи редактора, то, что мы видим, не всегда отражает содержимое файла. Да, содержимое файла с неформатированным текстом — это байтовые коды, закодированные в таких форматах, как ASCII, UTF8 и UTF16, и в этих байтовых кодах находится источник истины. Но в конечном итоге, именно текстовый редактор выбирает, как интерпретировать и отображать пользователю источник истины (двоичные коды). Это значит, что два файла могут выглядеть одинаково или один и тот же файл может выглядеть по-разному в зависимости от редактора.

Текстовый редактор может подсвечивать (или нет) отдельные части на основании распознанного им синтаксиса, может управлять отображением табов (2 пробела, 4 пробела или даже 8). Он решает, как кодировать нажатие клавиши Tab, например, как \t или как заданное количество пробелов. То же относится и к нажатию на клавишу Enter для создания новой строки — будет ли она кодироваться как \n (UNIX) или \r\n (Windows), зависит от конфигурации редактора.

Текстовый редактор скрывает подробности, чтобы пользователю не пришлось слишком много думать. Однако довольно часто такие подробности протекают сквозь защитный слой, который пытается создать редактор. И мы часто не замечаем подобные тонкости, пока не столкнёмся с ними.

Основная цель моей статьи — поделиться своим опытом и проблемами, с которыми можно столкнуться, работая с неформатированным текстом.

ghostmansd 29 окт 2024 в 10:15

Эволюция в режиме цейтнота: как мы изобрели SDK и CLI для Cloud.ru Evolution в ходе нагрузочного тестирования

Средний

25 мин

885

Блог компании Cloud.ruВысоконагруженные системы * Хранение данных * IT-инфраструктура * Программирование *

Кейс

✏️ Технотекст 7

Привет, Хабр! Меня зовут Дмитрий Селютин, я ведущий разработчик команды R&D в Cloud.ru.

Ситуации, когда при решении совершенно конкретной задачи упираешься в сложности откуда-то сбоку, возникают в разработке с завидной регулярностью. В задачах, зависящих от автоматизации, очень часто случается, что слабым местом оказываются непосредственно инструменты для этой автоматизации, если они вообще есть. Такие инструменты могут рождаться и умирать, но порой они могут возрождаться заново. Сегодня поделюсь рассказом о том, как в ходе исследований производительности нашего облака Cloud.ru Evolution мы внезапно сделали SDK и CLI посредством генерации кода и интроспекции. Статья будет полезной всем, перед кем стоит задача быстро обернуть сгенерированный API на Python в нечто более симпатичное и поможет из этого автоматически сделать CLI. Ну а для тех, кто не связан с темой, это будет поучительная история из разряда «если у вас завалялся кусочек кода, не спешите его выбрасывать».

Xcom-shop 29 окт 2024 в 09:26

Как хранить данные без облачных сервисов: преимущества сетевых хранилищ QNAP для дома и бизнеса

7 мин

8.3K

Блог компании Группа компаний X-ComХранение данных * НакопителиСетевые технологии * Облачные сервисы *

Мнение

Современные технологии и развитие цифровых сервисов делают нас всё более зависимыми от сохранности данных, их безопасности, а главное - доступности. Поэтому даже домашние пользователи, не говоря уже о корпоративных, регулярно сталкиваются с необходимостью организовать систему, которая бы обеспечивала надёжное хранение файлов, их защиту и удобный к ним доступ. Логичным решением этой проблемы является организация сетевого хранения данных (NAS). О них сегодня и поговорим.

hardWorker_thrall 28 окт 2024 в 09:29

Резервное копирование системы виртуализации Basis.DynamiX с помощью RuBackup

Средний

9 мин

2.2K

Блог компании Группа АстраВиртуализация * Хранение данных * Восстановление данных * Резервное копирование *

Обзор

Привет всем, кто заботится о данных и не собирается их терять. Сегодня мы рассмотрим тему бэкапа виртуальных машин (ВМ) на платформе виртуализации Basis.DynamiX (далее — DynamiX). Для этого будем использовать систему резервного копирования (СРК) RuBackup.

В статье расскажу, как установить, настроить и использовать RuBackup для создания резервных копий (РК) ВМ на платформе DynamiX, а также разберу некоторые сложности, которые могут возникнуть в процессе работы.

В первую очередь статья будет полезна для администраторов платформы виртуализации DynamiX, которым необходимо настроить в системе резервное копировани. Также статья подойдет для новичков, которые хотят разобраться, как в целом работает RuBackup.

Не забудьте про ссылки в конце статьи, они будут полезны!

ph_piter 25 окт 2024 в 13:28

Какую архитектуру конвейера данных следует использовать?

7 мин

6.3K

Блог компании Издательский дом «Питер»Хранение данных * Big Data * Анализ и проектирование систем *

Перевод

Здесь представлен обзор архитектур конвейеров данных, которые вы можете использовать сегодня.

Данные важны для любого приложения и нужны для разработки эффективных конвейеров для доставки и управления информацией. Как правило, конвейер данных создаётся, когда вам необходимо обрабатывать данные в течение их жизненного цикла. Конвейер данных может начинаться там, где данные генерируются и хранятся в любом формате. Конвейер данных может обеспечивать анализ данных, их использования для целей бизнеса, долговременного хранения, а также для тренировки моделей машинного обучения.

Читать дальше →

Seleditor 24 окт 2024 в 08:05

Технологический прорыв: WD выпустила первый в мире HDD на 32 ТБ. Конкуренты позади, хоть и временно

4 мин

17K

Блог компании SelectelХранение данных * НакопителиКомпьютерное железоIT-инфраструктура *

Источник.

Компания Western Digital анонсировала первый в мире жесткий диск объемом 32 ТБ, в котором используются технологии ePMR и UltraSMR. Это модель WD Ultrastar DC HC690. Инженеры компании добавили дополнительную пластину, так что их теперь 11 вместо обычных 10. Достижение WD именно в том, что она первой выпустила на рынок свой диск такой емкости. У Seagate, например, были прототипы HDD объемом 30+ ТБ на базе 10 пластин с технологией HAMR, но в продаже их не найти. Что же, давайте посмотрим, что это за диск такой.

Читать дальше →

+60

randall 22 окт 2024 в 13:59

Автоматизировать аналитику, визуализировать данные и не только — примеры российских BI-решений

Простой

5 мин

6.7K

Блог компании МТСБлог компании MWSХранение данных * Облачные сервисы * Визуализация данных *

Обзор

Большинство российских BI-решений к 2024 году уже достигли необходимого уровня развития, чтобы заменить зарубежные продукты. Но требования клиентов к BI-системам сильно отличаются. Кому-то необходимы простые и понятные дашборды, другим — возможность настройки по специфическим требованиям, а также включение технологического решения в реестр российского ПО.

Мы уже рассказывали, как перейти на российские BI-решения без потери эффективности (запись открыта по ссылке, подключайтесь). А сегодня подробнее разберем, что могут предложить Analytic Workspace, Glarus BI, Modus BI и LuxMS BI.

Maxpain 22 окт 2024 в 12:27

Как небольшой «тюнинг» Talos Linux увеличил производительность NVMe SSD в 2.5 раза

Средний

9 мин

19K

Настройка Linux * Серверная оптимизация * DevOps * Kubernetes * Хранение данных *

Туториал

✏️ Победитель Технотекста 7

Привет, Хабр!

Мы рассмотрим несколько примитивных настроек Linux, которые могут повысить производительность NVMe SSD дисков в разы. Под катом много интересных подробностей, так что скучно не будет.

+62

bocharovf 22 окт 2024 в 10:00

Тернистый путь к единому хранилищу метрик

Средний

16 мин

8.7K

Блог компании МТСБлог компании Конференции Олега Бунина (Онтико)Хранение данных * Высоконагруженные системы *

Кейс

Метрики — один из трёх базовых типов телеметрии и основа мониторинга любого приложения. Но что, если необходимо собирать их в рамках крупной и высоконагруженной экосистемы? Как собрать метрики с десятков тысяч хостов разных ЦОДов и сотен типов приложений? И как упростить инженерам настройку правил алертинга и создание дашбордов?

Привет, Хабр! Я Филипп Бочаров, руководитель стрима мониторинга и наблюдаемости в МТС Digital. Мы занимаемся всеми типами телеметрии: логами, трассировкой и, конечно, метриками. Единое хранилище метрик экосистемы — часть нашей платформы наблюдаемости. Для этих целей мы используем агент Telegraf и большой кластер VictoriaMetrics, принимающий 10+ миллионов сэмплов в секунду.

В этой статье расскажу, как мы реализовали централизованное управление конфигурацией агентов, удобный интерфейс для настройки алертинга и правил сбора метрик. Покажу, как менялась архитектура решения с ростом нагрузки, как мы боролись с отставанием и потерей данных. Посмотрим, как это позволило собрать все метрики в единое хранилище и построить дашборды здоровья по ключевым продуктам.

+19

ru_vds 21 окт 2024 в 14:09

Почему многие пользуются древними версиями Postgres?

Простой

5 мин

18K

Блог компании RUVDS.comPostgreSQL * Базы данных * Хранение данных *

Обзор

Перевод

Postgres 17.0 уже вышла, и она замечательная, но реальность такова: большинство пользователей Postgres не выполняют апгрейд сразу же. Многие, вероятно, сейчас даже не на 16.4, и даже не на 16, они пользуются Postgres 15 или ещё более старой версией. Ситуация с Postgres не такая же, как с новыми Call of Duty, когда каждый хочет скачать обновление сразу же после его выхода.

Почему же люди так неохотно идут на апгрейд?

На то есть множество причин, но всё сводится к двум основным: качество работы Postgres и неудобство апгрейдов.

Читать дальше →

+42

Alek_Che 18 окт 2024 в 12:36

Плюсы и минусы различных DWH как источников данных для BI

Простой

7 мин

2.3K

Блог компании Modus BIХранение данных *

Обзор

Recovery Mode

Привет, Хабр! На связи Александр Чебанов, product owner Modus.

Корпоративное хранилище данных долгое время является наиболее популярным источником данных для бизнес-аналитики, и вряд ли в ближайшее время картина радикально изменится. Но наряду с ним выступают и гибридные системы Hybrid Transaction / Analytical Processing, которые совмещают аналитику данных транзакционных (учетных) систем и систем анализа данных. Также очень популярно использование озер данных, напрямую связанных со слоем BI, активно развиваются технологии облачного хранилища данных.

В этой статье мы кратко рассмотрим несколько вариантов организации аналитических хранилищ. Итак, поехали!

-2

k0rsakov 18 окт 2024 в 06:00

Инфраструктура для Data-Engineer Apache Iceberg

Средний

16 мин

8.9K

Data Mining * Big Data * Хранение данных * Data Engineering *

Туториал

В этой статье вы узнаете что такое Apache Iceberg, как его можно использовать и для чего он вообще нужен.

В статье также рассматривается вопрос Data Lake.

-1

JohnLi139 17 окт 2024 в 10:03

Как переподписка по CPU в облаке снижает производительность Arenadata DB: результаты, которых не ждёшь

Средний

10 мин

4.4K

Блог компании ArenadataХранение данных * Data Engineering * Big Data * Облачные вычисления *

Аналитика

Всем привет! Меня зовут Константин Малолетов, я архитектор облачных сервисов в компании Arenadata. Сегодня хочу рассказать, как мы решаем задачу эффективного размещения ресурсоёмких систем, таких как Arenadata DB, в облаке.

В статье рассмотрим несколько сценариев использования вычислительных ресурсов и их влияние на работу ADB, а также поделимся результатами проведённых тестов.

+19

1 2 ...

25 26

28 29 ...

166 167

Хранение данных *

Восстановление данных с зашифрованного Linux тома с помощью cryptsetup

Файловая система без фокусов: как hard links и XOR сэкономят ваши гигабайты

Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа

Система сквозного логирования с передачей единого идентификатора между независимыми задачами Airflow

Восстанавливаем данные с кассеты от старого стримера

Инфраструктура для Data-Engineer DBT

Выбираю Open Source БД для себя

Неформатированный текст не так уж прост

Эволюция в режиме цейтнота: как мы изобрели SDK и CLI для Cloud.ru Evolution в ходе нагрузочного тестирования

Как хранить данные без облачных сервисов: преимущества сетевых хранилищ QNAP для дома и бизнеса

Резервное копирование системы виртуализации Basis.DynamiX с помощью RuBackup

Какую архитектуру конвейера данных следует использовать?

Здесь представлен обзор архитектур конвейеров данных, которые вы можете использовать сегодня.

Технологический прорыв: WD выпустила первый в мире HDD на 32 ТБ. Конкуренты позади, хоть и временно

Ближайшие события

Автоматизировать аналитику, визуализировать данные и не только — примеры российских BI-решений

Как небольшой «тюнинг» Talos Linux увеличил производительность NVMe SSD в 2.5 раза

Тернистый путь к единому хранилищу метрик

Почему многие пользуются древними версиями Postgres?

Плюсы и минусы различных DWH как источников данных для BI

Инфраструктура для Data-Engineer Apache Iceberg

Как переподписка по CPU в облаке снижает производительность Arenadata DB: результаты, которых не ждёшь

Вклад авторов