Как стать автором
Обновить
32.38

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
Порог рейтинга
Уровень сложности

Как мы законтрибьютили целую строчку в HashiCorp Vault

Время на прочтение13 мин
Количество просмотров9.7K

Привет! Меня зовут Пётр Жучков, я руководитель группы хранения секретов и конфигураций в отделе Message Bus в Ozon. Мы отвечаем за поддержку и развитие системы хранения и использование секретов, активно сотрудничаем с ребятами из департамента информационной безопасности, чтобы все сервисы могли безопасно работать с секретами.

Основной наш инструмент для управления секретами — Vault. Он отличается хорошей функциональностью, а также имеет подробную документацию, благодаря которой можно быстро начать его использовать. Конечно, запустить Vault и подключить к своему сервису — это совсем не то же самое, что надёжно и безопасно предоставить платформенный доступ более 6000 сервисов и других инфраструктурных систем. Для нас крайне важно отдавать данные быстро и хранить безопасно.

Если вы хотите безопасно хранить секреты или просто погрузиться в gRPC и Go, то, думаю, вам будет интересно и полезно не повторять наши ошибки.

Далее я расскажу историю о том, как во время стандартной процедуры обслуживания Vault мы смогли положить его и потратили много времени и нервных клеток, чтобы вернуть в рабочее состояние.

Читать далее
Всего голосов 76: ↑75 и ↓1+80
Комментарии6

Инфраструктура для Data-Engineer ClickHouse

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.8K

В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".

Рекомендуется всем, кто ещё не знаком с ClickHouse.

В статье постарался всё кратко и понятно рассказать про ClickHouse.

Читать далее
Всего голосов 1: ↑0 и ↓1-1
Комментарии4

Стеганография в Linux — просто

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров10K

Сегодня я хотел бы познакомить читателей Хабра с цифровой стеганографией. В нынешнем примере мы создадим, протестируем, проанализируем и взломаем стегосистемы. Я использую операционную систему Kali GNU/Linux, но кому интересна тема на практике, тот может повторить все то же в любом другом дистрибутиве Линукс.
Но для начала совсем немного теории.

Читать далее
Всего голосов 12: ↑12 и ↓0+18
Комментарии5

Современная Lakehouse-платформа данных Data Ocean Nova

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров2.8K

Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на протяжении моего профессионального пути, стремительно развивались. Начиная с решений, основанных на стеке традиционных СУБД, таких как Oracle, MS SQL Server, Postgres, постепенно эволюционируя в ставшие уже классическими (а некоторые даже и закрытыми) MPP-системы, такие как Teradata, GreenPlum, Netezza, Vertica, IQ, HANA, Exadata, ClickHouse, в различные решения на базе экосистемы Hadoop, облачные сервисы и платформы. Меняется мир, меняются технологии, меняются подходы к проектированию, меняются и требования к задачам аналитического ландшафта данных.

Уверен, что многие, кто уже знаком с терминами Data Mesh и Data Lakehouse, задаются вопросом: что может предложить рынок аналитических систем в этих методологиях проектирования и архитектурных подходах. Я хочу рассказать об аналитической платформе данных Data Ocean Nova, владельцем и технологическим идеологом которой я являюсь.

Читать далее
Всего голосов 10: ↑9 и ↓1+11
Комментарии0

Истории

Новый нечёткий поиск и автодополнение в Manticore Search

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1K

Краткое содержание


Мы рады представить две новые важные функции в Manticore Search: нечёткий поиск и автокорректировка запросов (или "автодополнение"). Эти функции улучшают возможности поиска, предлагая более удобный для пользователя опыт.

Читать далее
Всего голосов 8: ↑8 и ↓0+13
Комментарии2

Бесплатная open-source альтернатива Google Photos и iCloud Photos

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров51K

Как-то мы лежали в кровати с нашим малышом и жена сказала, что фотографий и видео с ним стало больше и она не хочет использовать платное приложение. Примерно так начинается рассказ создателя Immich – бесплатного open-source решения для хранения фотографий и видео.

Надо сказать, в последние годы я тоже регулярно пытался найти бесплатную self-hosted альтернативу Google Photos и iCloud, однако до сегодняшнего дня функциональных и вместе с тем простых в настройке решений я не встречал. Тот же Nextcloud всегда казался чересчур громоздким. Immich же, напротив, сразу завоевал моё сердце, и вот, после нескольких недель его использования, с радостью делюсь своим рабочим примером.

Читать далее
Всего голосов 45: ↑40 и ↓5+46
Комментарии139

Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

Время на прочтение14 мин
Количество просмотров17K

Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес‑аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH).

Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных.

Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.

Читать далее
Всего голосов 19: ↑17 и ↓2+20
Комментарии3

Управляем моделью с помощью метаданных в dbt

Уровень сложностиСложный
Время на прочтение20 мин
Количество просмотров1.7K

Это приключение посвящено созданию продвинутых макросов, которые используют метаданные модели для управления инкрементальностью и тестами качества. Задание параметров модели в виде метаданных позволяет наглядно представлять их в каталоге данных и переиспользовать в разных задачах.

Квест подготовлен для раскрытия темы в рамках dbt Meetup #5 и нацелен на инженеров аналитики, которые готовы глубоко погрузиться в написание макросов dbt для решения сложных практически значимых задач.

Предложенный подход позволяет эффективно выстраивать сложные автоматизации в проекте, является незаменимым для больших дата‑лейков на базе Trino/Presto и позволяет изучить макросы на продвинутом уровне, достаточном для создания собственных сложных автоматизаций.

Читать далее
Всего голосов 4: ↑3 и ↓1+5
Комментарии0

Мой сервер бэкапов

Время на прочтение9 мин
Количество просмотров16K

Дошли наконец-то руки сделать персональный сервер бэкапов, который будет стоять не у меня дома. С этой мыслью я уже несколько лет хожу, делал несколько подходов, но вот наконец-то звёзды сошлись — у меня и железка под него образовалась, и дисков в достаточном количестве, и ОС наконец-то более-менее подобрал.

В качестве железа выбрал старенький HP Microserver Gen7. Продавать большого смысла не видел, куда-то в продакшн ставить тоже — он почти на любой чих под 100% загружается, если какие-то сервисы вешать или просто в несколько потоков файлы по гигабитной сети копировать. А вот с простым хранением файлов он ещё справится.

Читать далее
Всего голосов 15: ↑14 и ↓1+18
Комментарии39

Смотреть или выгружать: тонкости работы с сырыми логами в CDN

Время на прочтение5 мин
Количество просмотров3.6K


Логи в CDN — мощный инструмент для администраторов и разработчиков, который дает доступ к детальной информации о запросах пользователей. Он помогает оптимизировать производительность, улучшить качество обслуживания, обеспечить безопасность онлайн-сервисов и доступность контента для конечных пользователей. Чтобы сделать эту работу эффективнее, мы добавили в панель управления возможность выгружать сырые логи. В этой статье разберемся, что это такое, в каких случаях такая опция может пригодиться и почему обычного просмотра логов иногда недостаточно.
Читать дальше →
Всего голосов 35: ↑35 и ↓0+46
Комментарии3

Использование API в FineBI

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров967

Привет, Хабр! На связи Business Intelligence GlowByte. 

В данной статье разберем основы интеграции FineBI c внешними системами. С помощью публичных методов API можно использовать интерфейс, управлять системой удаленно и автоматизировать бизнес-процессы. Существует несколько способов интеграции публичных API в FineBI, и в зависимости от поставленных задач разработчики должны выбрать, какой способ им более подходит, или комбинировать их между собой. Далее рассмотрим доступные варианты, разберем их отличия и особенности и протестируем некоторые методы в http-клиенте Postman.

Читать далее
Всего голосов 7: ↑7 и ↓0+9
Комментарии0

Сайзинг многоуровневого КХД (ч.2 Как сайзим)

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров455

Продолжение разбора задачи сайзинга многоуровневого КХД.
Первая часть: "ч.1 Что сайзим"

ШАГ 0. Перед началом сайзинга специалистами IT выполняется анализ текущих систем (баз данных) и оцениваются отправные критерии сайзинга (годовой объем данных, прирост, объем исторических данных)

ШАГ 1. Общий объем исторических (начальных) данных

Читать далее
Всего голосов 2: ↑1 и ↓1+2
Комментарии5

Сайзинг многоуровневого КХД (ч.1 Что сайзим)

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров632

Приветствую, ищущий методики и подхода, Гость!

Мой многолетний опыт работы в части проектирования и реализации КХД с использованием продуктов иностранных Вендоров, всегда был сопряжен с использованием их обширной инфраструктуры и наработок обеспечивающих и помогающих выполнять вспомогательные задачи быстро и условно качественно. Одной из таких задач всегда являлось выполнение сайзинга разрабатываемого КХД. Вы можете задаться вопросом: "Почему "условно качественно"? - ответ тут прозаичен и банален: "Инструменты сайзинга не могут однозначно ответить на вопрос, какие характеристики заложить и как посчитать сайзинг КХД до того, как полностью сформировано ТЗ и не расставлены все точки над Ё...", ну и конечно, никакой инструмент не в силах справиться с изменениями требований по ходу проекта, криворукостью разработчиков и применением не оптимальных решений. Как оказалось, после ухода поставщиков программного обеспечения с рынка и массового перехода на OpenSource решения, вместе с софтом "ушли" и прикладные решения для выполнения сайзинга КХД.

Методика, которая рассматривается ниже, основывается на следующих послулатах

Читать далее
Всего голосов 5: ↑3 и ↓2+3
Комментарии0

Ближайшие события

Вредные советы по работе с данными. Если вы сломать решили всю отчетность у коллег

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.7K

Привет, Хабр! Меня зовут Леонид Калядин, я Cluster Data lead в МТС Диджитал, занимаюсь развитием практики Data Governance и Data Quality в 25+ продукта кластера. Мне довелось долго работать в консалтинге и разбираться с проблемами в других системах. Вот смотришь со стороны на ИТ-продукт: все классно и продумано, должно работать как часы. А потом спускаешься на уровень данных и хватаешься за голову: как же допустили такую ошибку? Ее можно было избежать, если задать пару вопросов на стадии проектирования. Зато теперь переделывать все чуть ли не с нуля и ждать возможности вписать изменения в какой-нибудь релиз. Красота!

В этом посте я на основе своего и чужого опыта собрал несколько вредных советов, как не надо хранить историю, объединять данные из разных источников и отслеживать их качество.

В общем,
Если вы сломать решили всю отчетность у коллег,
Обязательно зайдите в этой записи под кат!

Читать далее
Всего голосов 8: ↑5 и ↓3+3
Комментарии1

Один за всех или каждый занят своим делом? Разбираемся в устройстве команд корпоративных хранилищ данных

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.1K

Какой будет команда КХД, решает бизнес. Определяющими факторами могут быть объем хранилища и количество средств, которые готовы вкладывать в его развитие. Взвешиваем за и против и составляем оптимальную команду и схему постановки задач.

Читать далее
Всего голосов 8: ↑6 и ↓2+8
Комментарии0

Streaming 101 (Основы потоковой обработки)

Уровень сложностиСредний
Время на прочтение32 мин
Количество просмотров3.2K

Обработка потоковых данных стала крайне важна в настоящее время. И на это есть веские причины, такие как:

Компании жаждут получать данный как можно быстрее, и переход на потоковую обработку будет хорошим способом уменьшить задержки.

Объемные неограниченные наборы данных, все чаще встречающиеся в современных бизнес процессах, могут быть легче обузданы применением систем, специально спроектированных для таких объемов информации

Обработка данных по мере их поступления распределяет нагрузку более равномерно по времени, приводя с стабильному и предсказуемому потреблению вычислительных ресурсов.

Несмотря на существенный интерес к потоковой обработке данных со стороны бизнеса, львиная доля таких систем оставалась относительно незрелой по сравнению с аналогичными системами, ориентированными на пакетную обработку данных, так что это привело к недавнему всплеску вдохновляющих разработок в этой сфере.

Как тот, кто работал над крупно‑масштабной системой потоковой обработки в Google на протяжении последний пяти с лишним лет (MillWheel, Cloud Dataflow), я, мягко говоря, в восторге от сложившихся тенденций. Я все также заинтересован в том, чтобы люди понимали, что именно системы потоковой обработки в состоянии выполнять, и как их использовать наилучшим образом, в частности, закрыв нехватку знаний, оставшуюся между существующими системами пакетной обработки и потоковыми. С этой целью замечательные ребята из O»Reilly пригласили меня предоставить письменную версию моего доклада «Say Goodbye to Batch» с конференции Strata + Hadoop World London 2015.

Читать далее
Всего голосов 6: ↑5 и ↓1+6
Комментарии1

Как мы искали альтернативу иностранному ПО

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров4.8K

Привет, друзья! Я — Василь Фатихов, работаю в ИТ подразделении ВТБ. Одной из моих повседневных задач является загрузка данных в корпоративное хранилище. Именно с этими данными работают потом «колдуны — аналитики», извлекая из них новые возможности для бизнеса.

Сейчас многие сталкиваются с проблемами, связанными с переходом на альтернативное программное обеспечение. Именно по этой причине мы с коллегами решили написать эту статью, чтобы показать возможные варианты решений и предупредить о трудностях.

Читать далее
Всего голосов 16: ↑14 и ↓2+14
Комментарии7

Жизнь после SAP: импортозамещение платформы данных

Время на прочтение7 мин
Количество просмотров6.7K

Последние пару лет не перестает сходить с первого плана вопрос импортозамещения софта ушедших вендоров. Мы занимаемся данными, поэтому и делимся опытом импортозамещения платформ данных у наших enterprise заказчиков.

Если попробовать классифицировать причины импортозамещения, то это могут быть снижение вендорских рисков, требования Минцифры, сложность и стоимость закупки сертифицированного «железа» под импортные платформы и так далее.

Кстати, далеко не на последнем месте запрос команд разработки и поддержки на реализацию проектов на российском и open source технологическом стеке. Российский рынок вакансий на западном проприетарном вендорском ПО постепенно сужается, так как сейчас спрос российских компаний на такой софт стремится к нулю и такие системы постепенно превращаются в Legacy.

Так или иначе, российский крупный бизнес постепенно приходит к задаче импортозамещения и вместе с этим к целому спектру сложных задач, начиная от выбора подходящих целевых систем и технологий и их «допиливания», разработки,внедрения, до удовлетворения ожиданий не всегда простых бизнес-пользователей.

Разделим проблему на две части – подходящий апробированный технологический стек с формированием команды и сатисфакция бизнес-пользователей.

Читать далее
Всего голосов 12: ↑10 и ↓2+10
Комментарии3

Наводим порядок с базами данных. Переносим файлы в S3, мигрируем в единый кластер

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5.5K

«Что там с базами, не пора ли добавлять ресурсов?» — казалось бы, звучит как дежурная реплика менеджера, и классический ответ на неё: «всё ок, до конца недели должно хватить!». 

На деле этот безобидный на первый взгляд вопрос может быть сигналом о целом ворохе проблем. Важно разобраться, почему его задают (можно ведь посмотреть алерты и мониторинг), о чём именно речь (у нас точно всё ок с архитектурой?), как часто вопрос возникает (сколько денег мы тратим на содержание баз?).

Однажды на вопрос «что там с базами?» мы в команде решили ответить несколько иначе. Вместо «до конца недели должно хватить» — сказали: «давайте мигрируем базы в единый кластер, а тяжёлые файлы перенесём в S3».

О том, что из этого вышло, читайте под катом.

Читать далее
Всего голосов 20: ↑20 и ↓0+22
Комментарии11

Защита серверов и данных: Zero Trust и 20 фич для вашей кибербезопасности

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров5.6K

Серверы — штука надёжная. Особенно в опытных руках. На аппаратном уровне многие системы и комплектующие продублированы, частичное обслуживание возможно на ходу без остановки работы, а при виртуализации и кластеризации даже полное обслуживание с живой миграцией виртуалок и полной остановкой отдельных узлов. Резервируют и сетевые каналы на магистральном уровне, а иногда и целые кластеры, реализуя «heartbeat» — регулярные сигналы между системами в разных дата-центрах, чтобы убедиться, что они работают и синхронизированы.

Но потом на ваш прекрасный отказоустойчивый сервер приходит обновление от CrowdStrike (инструмент защиты от кибератак), которая вроде как должна бороться со всем плохим, а не примыкать к нему. И ещё 8,500,000 серверов и ПК по всему миру присоединяются к вечеринке, после которой банки, аэропорты (да и авиация в целом), больницы, службы безопасности и другие блага цивилизации отсыпаются где-то в ванной.

Миллиардные убытки, колоссальный репутационный ущерб. И даже кибератак не было по официальным данным — сами себе в ногу стрельнули.

В этой статье я расскажу о полезных практиках, которые защитят ваши серверы и данные — от своих и чужих. А в конце уже по классике опрос. И помните, лучший способ стать просветлённым — указать на ошибки автора и вступить в спор с случайным комментатором на Хабре :)

Читать далее
Всего голосов 3: ↑3 и ↓0+5
Комментарии4

Вклад авторов