Обновить
166.3

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Технология проектирования хранилищ данных Data Vault 2.0

Уровень сложностиПростой
Время на прочтение19 мин
Просмотры23K

Data Vault 2.0 остаётся одним из самых популярных методов моделирования данных. Его выбирают за гибкость, масштабируемость и устойчивость к изменениям. Этот разработанный Дэном Линстедом подход помогает организациям быстро адаптироваться к новым бизнес-требованиям, легко интегрировать новые источники данных и надёжно хранить исторические данные.

Эта статья будет полезна дата-инженерам, аналитикам данных, архитекторам данных и бизнес-аналитикам. Она поможет усовершенствовать умения в моделировании данных. Мы рассмотрим ключевые принципы Data Vault 2.0 и на практическом примере покажем, как разложить сырые данные по Data Vault 2.0.

Читать далее

Как снизить расходы на мониторинг: замена Prometheus на VictoriaMetrics

Время на прочтение6 мин
Просмотры12K

Мониторинг может оказаться дорогим делом из-за огромных объемов данных, которые необходимо обрабатывать. В этой статье вы узнаете о лучших способах хранения и обработки метрик мониторинга для снижения расходов и о том, как VictoriaMetrics может в этом помочь.

(cм. вторую статью из этой серии — Как снизить расходы на мониторинг: более разумный подход к данным.)

Читать далее

Стеганография в линукс — просто (Часть 2)

Уровень сложностиПростой
Время на прочтение2 мин
Просмотры3.2K

В этой статье я поделюсь своим опытом и еще некоторыми утилитами

Вообще меня побудило написать эту статью прохождение курса Базовый курс по CTF на онлайн платформе Stepik, он бесплатный и по окончании выдается сертификат (это не реклама, а совет).

Перейдем непосредственно к утилитам.

Я уже подготовил файл «нашпигованый» двумя стегоконтейнерами. Файл скриншота рабочего стола 1.jpg

Проверим его наличие на рабочем столе ls.

Читать далее

Умное хранение или как мы снизили рост БД Oracle в полтора раза

Уровень сложностиСредний
Время на прочтение8 мин
Просмотры4.7K

Сегодня предлагаем обсудить сжатие данных в Oracle.
 
Ситуация: один наш крупный клиент в сфере телекома стремится нарастить абонентскую базу, поощряет потребление услуг и рост трафика. Это позволяет развиваться компании в целом и каждой её системе в отдельности, включая нашу систему взаиморасчётов с партнёрами — Partner Relationships Managment.

Проблема: регулярный прирост информации в БД на 0.6 TБ в месяц превращается в 7.2 TБ в год. При этом востребованной для изменений является информация только за последние два-три месяца. Остальные данные накапливаются и хранятся для отчётности. При таком подходе база разрастается очень быстро, а каждый SSD системы хранения данных становится на вес золота. К тому же необходимо поддерживать согласованность резервной и тестовой БД. 

Есть два выхода: закидывать в базы, как «в топку», бесконечное количество дисков, либо оптимизировать хранение информации. Мы выбрали второе.

В этой статье главный инженер-программист по бизнес-системам Кирилл Солдатов расскажет, что конкретно сделали в Nexign. Информация будет полезна всем, кто как и мы сталкивается с необходимостью управления большими массивами в БД Oracle.

Читать далее

Почему важно оптимизировать формат данных

Уровень сложностиСредний
Время на прочтение21 мин
Просмотры18K
image

Если вам нужно повысить скорость вашей программы, то первым делом логично будет вспомнить курс по структурам данных и оптимизировать алгоритмическую сложность.

Алгоритмы — важнейшая часть программы: замена «горячего» алгоритма O(n) менее сложным, например, O(log n), обеспечивает практически произвольное увеличение производительности. Однако существенно влияет на производительность и структурированность данных: программы выполняются на физических машинах с физическими свойствами, например, разными задержками чтения/записи данных в кэши, на диски или в ОЗУ. После оптимизации алгоритмов стоит изучить эти свойства, чтобы достичь наибольшей производительности. Оптимизированный формат данных учитывает используемые алгоритмы и паттерны доступа при выборе того, как сохранять структуру данных на физическом носителе. Благодаря этому можно увеличить скорость алгоритмов в несколько раз. В этом посте мы покажем пример, в котором нам удалось достичь четырёхкратного повышения скорости чтения простым изменением формата данных в соответствии с паттерном доступа.

Сравнение хранилищ данных AoS и SoA


Современное оборудование, и, в частности CPU, спроектировано так, чтобы обрабатывать данные определённым образом. Расположение данных в памяти влияет на то, насколько эффективно программа сможет использовать кэш CPU, как часто она сталкивается с промахами кэша и насколько оптимально она сможет задействовать векторные команды (SIMD). Даже при использовании оптимальных алгоритмов выбор неподходящего формата данных может приводить к частым перезагрузкам кэша, простаивающим конвейерам и чрезвычайно большому объёму передач содержимого памяти; всё это снижает производительность.
Читать дальше →

Приключение пакетишки

Время на прочтение4 мин
Просмотры2.7K

Каждый вечер, когда солнце прячется за верхушки сосен, на небе зажигаются звезды, а где-то в лесу неподалеку начинает ухать сова, которую мы уже два месяца не можем поймать, чтобы сварить из нее суп, - так вот: каждый раз, когда на нашу свалку опускается темнота, вся детвора собирается вокруг ржавого чайника в пустой нефтяной цистерне на западной окраине, чтобы попить кипятка, съесть по кусочку сахара и послушать сказку на ночь.

Проследовать за кроликами

Проблема преобразований муниципалитетов для аналитиков: как мы упорядочили хаос

Уровень сложностиСредний
Время на прочтение17 мин
Просмотры4.6K

Анализ данных на уровне муниципалитетов осложняется преобразованиями структуры территориальных единиц: меняются не только границы, но и типы муниципалитетов, названия, код ОКТМО. Это нужно учитывать в ходе исследований и при использовании информации, например, при работе с Базой данных показателей муниципальных образований Росстата. Открытых машиночитаемых данных о таких преобразованиях нет.

Меня зовут Артём Кушлевич, я геоаналитик из команды СберИндекса. В этой статье расскажу, о каких нюансах муниципальных данных нужно знать аналитикам, как мы сделали пространственный слой муниципалитетов с историей версий и разработали справочник преобразований, который можно использовать для построения непрерывных временных рядов. Эта информация может помочь:

— геоаналитикам, заинтересованным в данных о границах муниципальных образований;

— исследователям, которые работают с муниципальными данными (в первую очередь с Базой данных показателей муниципальных образований Росстата (БДПМО));

— при проектировании БДПМО 2.0.

Читать далее

Как я делал систему сбора данных на провинциальном заводе и что из этого вышло

Уровень сложностиПростой
Время на прочтение23 мин
Просмотры13K

Привет, Хабр!

Меня зовут Валерий, и я проработал инженером на заводе шесть лет. Звучит как начало занятий по групповой психотерапии для выгоревших сотрудников, но о моём выгорании и причинах этого я расскажу как-нибудь в другой раз. В данной статье хочу поделиться историей о том, как я воплощал свой Pet-проект в рамках промышленного предприятия и что из этого вышло. Впереди много картинок, так что добро пожаловать под кат!
Читать дальше →

Взлом робота-пылесоса и слежка за хозяином в прямом эфире

Уровень сложностиПростой
Время на прочтение13 мин
Просмотры8.5K

Крупный производитель домашней робототехники не смог устранить проблемы безопасности своих роботов‑пылесосов, хотя получил предупреждение о рисках ещё в прошлом году. Даже не заходя в здание, нам удалось получить снимки владельца устройства (разумеется, с его согласия). А дальше всё стало ещё хуже…

Читать далее

Предиктивная аналитика в промышленности: путь к повышению эффективности и снижению затрат

Уровень сложностиПростой
Время на прочтение7 мин
Просмотры3.5K

Предиктивная аналитика в промышленности: путь к повышению эффективности и снижению затрат

Предиктивная аналитика кардинально меняет подход к обслуживанию и управлению промышленным оборудованием. В условиях цифровой трансформации бизнеса, особенно в производственном секторе, она становится незаменимым элементом для повышения эффективности, минимизации простоев и снижения затрат. Рассмотрим, как предиктивная аналитика помогает промышленным компаниям достигать стратегических целей и что важно учитывать при её внедрении.

Читать далее

В каждом городе свои легенды: как мы запускали новую цифровую площадку, чтобы сохранить культурное наследие

Уровень сложностиПростой
Время на прочтение5 мин
Просмотры1.1K

Привет, Хабр! Этот материал — о нашем новом проекте «Городские легенды», который помогает воссоздать утраченные или сильно изменившиеся со временем шедевры архитектуры, знаковые здания и сооружения. Рассказываем, как нам в beeline cloud пришла идея такого проекта и что можете сделать вы, чтобы вместе с нами сохранить как можно больше «легенд» в каждом городе России.

Читать далее

Как интегрировать Veeam B&R с объектным хранилищем Selectel

Время на прочтение3 мин
Просмотры3.6K


Привет, Хабр! Veeam Backup & Replication — отличный софт для работы с бэкапами виртуальных машин. Но вот незадача — разобраться с ним может быть не так уж просто. Да и резервные копии нужно как минимум где-то хранить.

Меня зовут Дима, я системный администратор в Selectel. В этой инструкции пошагово разберу интеграцию Veeam B&R с нашим объектным хранилищем: от создания серверного пользователя в панели управления до завершения настройки Veeam.
Читать дальше →

История о том, как мы быстрое хранилище в 2022 году строили

Уровень сложностиПростой
Время на прочтение6 мин
Просмотры2.7K

Шёл 2022 год. Перед нами, как облачным провайдером, стояла задача создать под проект максимально быстрое хранилище объёмом от 150 ТБ. На тот момент рынок стремительно менялся: на смену традиционным SAS SSD стали приходить накопители форм‑фактора 2.5", поддерживающие интерфейс PCIe Gen4 x4 NVMe. И всё бы хорошо, да в привычную схему работы вмешались санкции.

Читать далее

Ближайшие события

HAOS наводит порядок

Уровень сложностиСредний
Время на прочтение4 мин
Просмотры5.4K

Что, если уже давно можно по технологии ИзГиП из спичек и желудей собрать свою, более подходящую систему для управления своими цифровыми активами? И пусть она будет управлять всеми вашими цифровыми активами, от управления чайником до скачивания новых серий "Любовь, смерть, роботы" сразу на шару в которую смотрит телевизор и включения по расписанию к вашему приходу этого добра на проигрывание?

Читать далее

Почему мои ZFS-диски так шумят?

Уровень сложностиСредний
Время на прочтение11 мин
Просмотры19K
У Джонни Кэша есть песня «One piece at a time» 1976 года. В ней рассказывается история об автомеханике, собирающем собственный Cadillac из деталей, которые он в течение 25 лет по одной тырил с производственного конвейера General Motors.

Некоторое время назад пользователь Practical ZFS задал обманчиво простой вопрос:

«У меня есть пул Proxmox из трёх RAIDz1 vdev (virtual device, виртуальное устройство) по 4 диска. Проблема в том, что во время работы VM все двенадцать дисков минимум раз в секунду издают громкий звук, причём в течение всего дня. Что может быть причиной, и как это устранить?»
Читать дальше →

Как я восстанавливал данные с диска, созданного в QNAP QTS

Уровень сложностиПростой
Время на прочтение6 мин
Просмотры7.2K

Всем привет! Это Кирилл, руководитель команды спецпроектов МТС Диджитал. Каждому хочется надежно хранить свои данные, чтобы даже в случае чрезвычайной ситуации с ними ничего не случилось. Облака — это, конечно, хорошо, но иметь дома свой небольшой файловый сервер уже давно стало обыденностью для многих.

Когда передо мной встала задача настроить свой локальный сервер, я посчитал оптимальным вариантом купить уже готовое сетевое хранилище. Большинство проблем решено уже «из коробки», равно как и с интеграцией в домашнюю инфраструктуру. Мой выбор пал на небольшую модель хранилище QNAP-D2, и за многие годы эксплуатации она не доставила мне проблем. Ровно до того момента, пока я не захотел переустановить QTS и переконфигурировать его. Эта банальная процедура в итоге превратилась в небольшой квест по спасению данных. О том, как его пройти без потерь, расскажу под катом.

Читать далее

Как мы законтрибьютили целую строчку в HashiCorp Vault

Время на прочтение13 мин
Просмотры12K

Привет! Меня зовут Пётр Жучков, я руководитель группы хранения секретов и конфигураций в отделе Message Bus в Ozon. Мы отвечаем за поддержку и развитие системы хранения и использование секретов, активно сотрудничаем с ребятами из департамента информационной безопасности, чтобы все сервисы могли безопасно работать с секретами.

Основной наш инструмент для управления секретами — Vault. Он отличается хорошей функциональностью, а также имеет подробную документацию, благодаря которой можно быстро начать его использовать. Конечно, запустить Vault и подключить к своему сервису — это совсем не то же самое, что надёжно и безопасно предоставить платформенный доступ более 6000 сервисов и других инфраструктурных систем. Для нас крайне важно отдавать данные быстро и хранить безопасно.

Если вы хотите безопасно хранить секреты или просто погрузиться в gRPC и Go, то, думаю, вам будет интересно и полезно не повторять наши ошибки.

Далее я расскажу историю о том, как во время стандартной процедуры обслуживания Vault мы смогли положить его и потратили много времени и нервных клеток, чтобы вернуть в рабочее состояние.

Читать далее

Инфраструктура для Data-Engineer ClickHouse

Уровень сложностиПростой
Время на прочтение9 мин
Просмотры5.6K

В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".

Рекомендуется всем, кто ещё не знаком с ClickHouse.

В статье постарался всё кратко и понятно рассказать про ClickHouse.

Читать далее

Стеганография в Linux — просто

Уровень сложностиПростой
Время на прочтение3 мин
Просмотры12K

Сегодня я хотел бы познакомить читателей Хабра с цифровой стеганографией. В нынешнем примере мы создадим, протестируем, проанализируем и взломаем стегосистемы. Я использую операционную систему Kali GNU/Linux, но кому интересна тема на практике, тот может повторить все то же в любом другом дистрибутиве Линукс.
Но для начала совсем немного теории.

Читать далее

Современная Lakehouse-платформа данных Data Ocean Nova

Уровень сложностиСредний
Время на прочтение15 мин
Просмотры7.1K

Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на протяжении моего профессионального пути, стремительно развивались. Начиная с решений, основанных на стеке традиционных СУБД, таких как Oracle, MS SQL Server, Postgres, постепенно эволюционируя в ставшие уже классическими (а некоторые даже и закрытыми) MPP-системы, такие как Teradata, GreenPlum, Netezza, Vertica, IQ, HANA, Exadata, ClickHouse, в различные решения на базе экосистемы Hadoop, облачные сервисы и платформы. Меняется мир, меняются технологии, меняются подходы к проектированию, меняются и требования к задачам аналитического ландшафта данных.

Уверен, что многие, кто уже знаком с терминами Data Mesh и Data Lakehouse, задаются вопросом: что может предложить рынок аналитических систем в этих методологиях проектирования и архитектурных подходах. Я хочу рассказать об аналитической платформе данных Data Ocean Nova, владельцем и технологическим идеологом которой я являюсь.

Читать далее

Вклад авторов