Обновить
166.3

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Восстановление данных с зашифрованного Linux тома с помощью cryptsetup

Время на прочтение3 мин
Просмотры1.9K

В этой статье мы разберем восстановление данных с зашифрованного с помощью LUKS тома NAS.

Внимание: в самом худшем случае для восстановления данных этим способом потребуется свободное место равное двум объемам зашифрованного раздела. Например, если у вас есть зашифрованный раздел на 1 ТБ, то необходимо иметь 2 ТБ свободного места. В лучшем случае (незначительные повреждения) понадобится один объем свободного дискового пространства. Также обращаем внимание, что вам НУЖНО ЗНАТЬ пароль, который использовался для шифрования тома

Для примера мы будем использовать диск от QNAP с зашифрованном разделом.

Читать далее

Файловая система без фокусов: как hard links и XOR сэкономят ваши гигабайты

Уровень сложностиПростой
Время на прочтение5 мин
Просмотры7.8K

Для начала нужно понять главное - файлов не существует.
А потом на примере простых манипуляций разобрать что такое hard links, чем может быть полезен непонятный XOR и как это всё уживается в системах копирования и снимков

Читать далее

Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа

Уровень сложностиСредний
Время на прочтение6 мин
Просмотры2.5K

В СИБУРе много данных, которые текут в режиме реального времени с многочисленных датчиков на разных производствах, эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. И от качества инфраструктуры для работы с данными зависит рентабельность производств и прибыль компании в целом, а это жизненно важные показатели.

В небольшом цикле из двух статей мы разберём опыт СИБУРа в создании, поддержке и развитии DQ (Data Quality — качество данных) сервиса для DWH (Data Warehouse — хранилище данных) в условиях санкций и исчезающих вендоров проверенных и привычных решений.

Рассказывать об этом опыте будет Александр Бергер, Lead DQ Analyst в Цифровом СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса на решениях вендора, который решил покинуть рынок РФ в разгар рабочего процесса.

Читать далее

Система сквозного логирования с передачей единого идентификатора между независимыми задачами Airflow

Уровень сложностиСредний
Время на прочтение7 мин
Просмотры40K

Привет! Меня зовут Никита Хилов, я работаю в билайне уже более десяти лет. Начинал я работать с поддержкой систем фиксированного фиксированного биллинга, впоследствии я отвечал за разработку и поддержку различных расчетов по системам управленческой или корпоративной отчетности. А сейчас я работаю в роли тимлида дата-инженеров в блоке по архитектуре и инфраструктуре данных и отвечаю за управление разработкой и сопровождением программных продуктов компании по различным точкам бизнес-приложения. 

Итак, какие же вопросы мы обсудим в этой серии постов. Сегодня я хочу осветить вопросы касаемо того, как же нам организовывать, компоновать и в принципе заставить работу систему журналирования наших расчетов для таких случаев, когда наш общепринятый ключ периодики, на котором мы обычно строим свои расчеты, перестает быть однозначным идентификатором той итерации процесса подготовки данных, на которую мы сейчас смотрим, и от которых мы ждем результаты. 

Мы обсудим, например, когда такое происходит и что для этого является катализатором. Рассмотрим механики и механизмы, которые дают возможность связывать независимые процессы и цепочки подготовки данных в единое целое.

И в дополнение расскажу, как мы эту проблему решали в своем продукте. 

Но прежде всего давайте определим для чего нам это, в принципе, нужно.

Читать далее

Восстанавливаем данные с кассеты от старого стримера

Уровень сложностиСредний
Время на прочтение8 мин
Просмотры10K
Приветствую всех! Многие давно привыкли, что ленточные накопители — что-то высоконадёжное и предназначенное для долговременного использования. Но есть один стандарт, про который сказать так как-то не получается, и имя ему — QIC. Странная конструкция стримера и кассеты, не слишком уж долгий срок хранения — всё это про него.

Так получилось, что как-то раз ко мне попал стример такого типа и кассета к нему, на которой ещё оставались какие-то данные. Что же с ним можно сделать? Давайте разбираться.



Итак, в сегодняшней статье поговорим про стримеры стандарта QIC и miniQIC. Попутно разберёмся, как они работают и в чём их фатальный недостаток, попробуем восстановить данные с архива тридцатилетней давности и узнаем, почему нельзя пользоваться проприетарным софтом для резервного копирования.
Читать дальше →

Инфраструктура для Data-Engineer DBT

Уровень сложностиПростой
Время на прочтение16 мин
Просмотры6.9K

dbt является мощным фреймворком, который включает в себя два популярных языка: SQL + Python.

При помощи dbt можно создавать разные "слои" данных или выделить dbt только под один слой, к примеру dm.

При помощи понятного и всем известного SQL интерфейса можно создавать разные модели для вашего DWH или Data Lake.

Читать далее

Выбираю Open Source БД для себя

Уровень сложностиПростой
Время на прочтение6 мин
Просмотры8.2K

Задача такая: искал Open Source БД для своего пет-проекта. Решил посмотреть в интернете новые решения в рамках БД. После чтения статей и отбора из 6-7 БД остались три (3), которые понравились лично мне. Больше ничего путного не нашел. 

Почему именно эти? Во-первых, они Open Source, а во-вторых, у них есть ответы на два главных моих вопроса «Для чего это нужно?» и «Работает ли из коробки?».

Давайте покажу на примерах.

Читать далее

Неформатированный текст не так уж прост

Уровень сложностиПростой
Время на прочтение7 мин
Просмотры2K

Когда мы взаимодействуем с текстовым файлом при помощи редактора, то, что мы видим, не всегда отражает содержимое файла. Да, содержимое файла с неформатированным текстом — это байтовые коды, закодированные в таких форматах, как ASCII, UTF8 и UTF16, и в этих байтовых кодах находится источник истины. Но в конечном итоге, именно текстовый редактор выбирает, как интерпретировать и отображать пользователю источник истины (двоичные коды). Это значит, что два файла могут выглядеть одинаково или один и тот же файл может выглядеть по-разному в зависимости от редактора.

Текстовый редактор может подсвечивать (или нет) отдельные части на основании распознанного им синтаксиса, может управлять отображением табов (2 пробела, 4 пробела или даже 8). Он решает, как кодировать нажатие клавиши Tab, например, как \t или как заданное количество пробелов. То же относится и к нажатию на клавишу Enter для создания новой строки — будет ли она кодироваться как \n (UNIX) или \r\n (Windows), зависит от конфигурации редактора.

Текстовый редактор скрывает подробности, чтобы пользователю не пришлось слишком много думать. Однако довольно часто такие подробности протекают сквозь защитный слой, который пытается создать редактор. И мы часто не замечаем подобные тонкости, пока не столкнёмся с ними.

Основная цель моей статьи — поделиться своим опытом и проблемами, с которыми можно столкнуться, работая с неформатированным текстом.

Читать далее

Эволюция в режиме цейтнота: как мы изобрели SDK и CLI для Cloud.ru Evolution в ходе нагрузочного тестирования

Уровень сложностиСредний
Время на прочтение25 мин
Просмотры885

Привет, Хабр! Меня зовут Дмитрий Селютин, я ведущий разработчик команды R&D в Cloud.ru.

Ситуации, когда при решении совершенно конкретной задачи упираешься в сложности откуда-то сбоку, возникают в разработке с завидной регулярностью. В задачах, зависящих от автоматизации, очень часто случается, что слабым местом оказываются непосредственно инструменты для этой автоматизации, если они вообще есть. Такие инструменты могут рождаться и умирать, но порой они могут возрождаться заново. Сегодня поделюсь рассказом о том, как в ходе исследований производительности нашего облака Cloud.ru Evolution мы внезапно сделали SDK и CLI посредством генерации кода и интроспекции. Статья будет полезной всем, перед кем стоит задача быстро обернуть сгенерированный API на Python в нечто более симпатичное и поможет из этого автоматически сделать CLI. Ну а для тех, кто не связан с темой, это будет поучительная история из разряда «если у вас завалялся кусочек кода, не спешите его выбрасывать».

Читать дальше

Как хранить данные без облачных сервисов: преимущества сетевых хранилищ QNAP для дома и бизнеса

Время на прочтение7 мин
Просмотры8.3K

Современные технологии и развитие цифровых сервисов делают нас всё более зависимыми от сохранности данных, их безопасности, а главное - доступности. Поэтому даже домашние пользователи, не говоря уже о корпоративных, регулярно сталкиваются с необходимостью организовать систему, которая бы обеспечивала надёжное хранение файлов, их защиту и удобный к ним доступ. Логичным решением этой проблемы является организация сетевого хранения данных (NAS). О них сегодня и поговорим.

Читать далее

Резервное копирование системы виртуализации Basis.DynamiX с помощью RuBackup

Уровень сложностиСредний
Время на прочтение9 мин
Просмотры2.2K

Привет всем, кто заботится о данных и не собирается их терять. Сегодня мы рассмотрим тему бэкапа виртуальных машин (ВМ) на платформе виртуализации Basis.DynamiX (далее — DynamiX). Для этого будем использовать систему резервного копирования (СРК) RuBackup.

В статье расскажу, как установить, настроить и использовать RuBackup для создания резервных копий (РК) ВМ на платформе DynamiX, а также разберу некоторые сложности, которые могут возникнуть в процессе работы.

В первую очередь статья будет полезна для администраторов платформы виртуализации DynamiX, которым необходимо настроить в системе резервное копировани. Также статья подойдет для новичков, которые хотят разобраться, как в целом работает RuBackup.

Не забудьте про ссылки в конце статьи, они будут полезны!

Читать далее

Какую архитектуру конвейера данных следует использовать?

Время на прочтение7 мин
Просмотры6.3K

Здесь представлен обзор архитектур конвейеров данных, которые вы можете использовать сегодня.


Данные важны для любого приложения и нужны для разработки эффективных конвейеров для доставки и управления информацией. Как правило, конвейер данных создаётся, когда вам необходимо обрабатывать данные в течение их жизненного цикла. Конвейер данных может начинаться там, где данные генерируются и хранятся в любом формате. Конвейер данных может обеспечивать анализ данных, их использования для целей бизнеса, долговременного хранения, а также для тренировки моделей машинного обучения.
Читать дальше →

Технологический прорыв: WD выпустила первый в мире HDD на 32 ТБ. Конкуренты позади, хоть и временно

Время на прочтение4 мин
Просмотры17K

Источник.

Компания Western Digital анонсировала первый в мире жесткий диск объемом 32 ТБ, в котором используются технологии ePMR и UltraSMR. Это модель WD Ultrastar DC HC690. Инженеры компании добавили дополнительную пластину, так что их теперь 11 вместо обычных 10. Достижение WD именно в том, что она первой выпустила на рынок свой диск такой емкости. У Seagate, например, были прототипы HDD объемом 30+ ТБ на базе 10 пластин с технологией HAMR, но в продаже их не найти. Что же, давайте посмотрим, что это за диск такой.
Читать дальше →

Ближайшие события

Автоматизировать аналитику, визуализировать данные и не только — примеры российских BI-решений

Уровень сложностиПростой
Время на прочтение5 мин
Просмотры6.7K

Большинство российских BI-решений к 2024 году уже достигли необходимого уровня развития, чтобы заменить зарубежные продукты. Но требования клиентов к BI-системам сильно отличаются. Кому-то необходимы простые и понятные дашборды, другим — возможность настройки по специфическим требованиям, а также включение технологического решения в реестр российского ПО. 

Мы уже рассказывали, как перейти на российские BI-решения без потери эффективности (запись открыта по ссылке, подключайтесь). А сегодня подробнее разберем, что могут предложить Analytic Workspace, Glarus BI, Modus BI и LuxMS BI.

Читать далее

Как небольшой «тюнинг» Talos Linux увеличил производительность NVMe SSD в 2.5 раза

Уровень сложностиСредний
Время на прочтение9 мин
Просмотры19K

Привет, Хабр!

Мы рассмотрим несколько примитивных настроек Linux, которые могут повысить производительность NVMe SSD дисков в разы. Под катом много интересных подробностей, так что скучно не будет.

Читать далее

Тернистый путь к единому хранилищу метрик

Уровень сложностиСредний
Время на прочтение16 мин
Просмотры8.7K

Метрики — один из трёх базовых типов телеметрии и основа мониторинга любого приложения. Но что, если необходимо собирать их в рамках крупной и высоконагруженной экосистемы? Как собрать метрики с десятков тысяч хостов разных ЦОДов и сотен типов приложений? И как упростить инженерам настройку правил алертинга и создание дашбордов?

Привет, Хабр! Я Филипп Бочаров, руководитель стрима мониторинга и наблюдаемости в МТС Digital. Мы занимаемся всеми типами телеметрии: логами, трассировкой и, конечно, метриками. Единое хранилище метрик экосистемы — часть нашей платформы наблюдаемости. Для этих целей мы используем агент Telegraf и большой кластер VictoriaMetrics, принимающий 10+ миллионов сэмплов в секунду.

В этой статье расскажу, как мы реализовали централизованное управление конфигурацией агентов, удобный интерфейс для настройки алертинга и правил сбора метрик. Покажу, как менялась архитектура решения с ростом нагрузки, как мы боролись с отставанием и потерей данных. Посмотрим, как это позволило собрать все метрики в единое хранилище и построить дашборды здоровья по ключевым продуктам.

Читать далее

Почему многие пользуются древними версиями Postgres?

Уровень сложностиПростой
Время на прочтение5 мин
Просмотры18K

Postgres 17.0 уже вышла, и она замечательная, но реальность такова: большинство пользователей Postgres не выполняют апгрейд сразу же. Многие, вероятно, сейчас даже не на 16.4, и даже не на 16, они пользуются Postgres 15 или ещё более старой версией. Ситуация с Postgres не такая же, как с новыми Call of Duty, когда каждый хочет скачать обновление сразу же после его выхода.

Почему же люди так неохотно идут на апгрейд?

На то есть множество причин, но всё сводится к двум основным: качество работы Postgres и неудобство апгрейдов.
Читать дальше →

Плюсы и минусы различных DWH как источников данных для BI

Уровень сложностиПростой
Время на прочтение7 мин
Просмотры2.3K

Привет, Хабр! На связи Александр Чебанов, product owner Modus. 

Корпоративное хранилище данных долгое время является наиболее популярным источником данных для бизнес-аналитики, и вряд ли в ближайшее время картина радикально изменится. Но наряду с ним выступают и гибридные системы Hybrid Transaction / Analytical Processing, которые совмещают аналитику данных транзакционных (учетных) систем и систем анализа данных. Также очень популярно использование озер данных, напрямую связанных со слоем BI, активно развиваются технологии облачного хранилища данных.

В этой статье мы кратко рассмотрим несколько вариантов организации аналитических хранилищ. Итак, поехали!

Читать далее

Инфраструктура для Data-Engineer Apache Iceberg

Уровень сложностиСредний
Время на прочтение16 мин
Просмотры8.9K

В этой статье вы узнаете что такое Apache Iceberg, как его можно использовать и для чего он вообще нужен.

В статье также рассматривается вопрос Data Lake.

Читать далее

Как переподписка по CPU в облаке снижает производительность Arenadata DB: результаты, которых не ждёшь

Уровень сложностиСредний
Время на прочтение10 мин
Просмотры4.4K

Всем привет! Меня зовут Константин Малолетов, я архитектор облачных сервисов в компании Arenadata. Сегодня хочу рассказать, как мы решаем задачу эффективного размещения ресурсоёмких систем, таких как Arenadata DB, в облаке.

В статье рассмотрим несколько сценариев использования вычислительных ресурсов и их влияние на работу ADB, а также поделимся результатами проведённых тестов.

Читать далее

Вклад авторов