Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Статьи Посты Новости Авторы Компании

CyberAGF 22 часа назад

Кибер Инфраструктура 5.5. Обзор новинок

8 мин

356

Блог компании КиберпротектВиртуализация*Хранение данных*Хранилища данных*

Обзор

Привет Хабр!

Сегодня познакомимся с ключевыми новинками в версии 5.5 нашего продукта "Кибер Инфраструктура". Кибер Инфраструктура — это универсальное решение, которое представляет собой мультипротокольное программно-определяемое хранилище и платформу виртуализации в одном продукте.

bocharovf 17 мая в 12:55

Распределенная трассировка с Jaeger и Clickhouse

13 мин

2.8K

Блог компании Конференции Олега Бунина (Онтико)Блог компании МТСВысокая производительность*Хранилища данных*Распределённые системы*

Кейс

Привет! Меня зовут Филипп Бочаров, я руководитель центра мониторинга и наблюдаемости в МТС Digital. Мы делаем распределённую трассировку, чтобы контролировать качество наших сервисов и предотвращать аварии. В этой статье разберём, как добиться понятной и прозрачной работы от сложных распределённых систем.

За время, прошедшее с прошлого доклада, количество обрабатываемых в единицу времени спанов выросло в несколько раз. Рассмотрим, какие архитектурные решения начали «поджимать», и как команда МТС их исправляла.

+12

ru_vds 15 мая в 16:00

Почему люди до сих пор не отказались от дискет

Простой

9 мин

15K

Блог компании RUVDS.comХранение данных*Хранилища данных*История ITСтарое железо

Обзор

Перевод

Музыкант Эспен Крафт хранит свои звуковые сэмплы на гибких дисках и использует их для создания музыки из-за их аутентичного звука

Последний гибкий диск был изготовлен больше десятка лет назад, сегодня на нём не хватит места даже для хранения фотографии с современного смартфона. Так почему же некоторые люди до сих пор любят ими пользоваться?

Когда в голову Эспена Крафта приходит идея нового музыкального произведения, он открывает одну из своих многочисленных коробок с дискетами. Открыв коробку, этот ютубер из Норвегии пробегает глазами по рядам разноцветных пластмассовых квадратов.

На одной из этикеток написано «Басовый звук Moog». Именно то, что нужно Крафту. Он достаёт диск и засовывает его в синтезатор. Машина подтверждает наличие диска приятным шумом. По словам Крафта, после этого начинается магия.

Сэмпл почти готов к воспроизведению, но именно предвкушение зарождает ностальгию Крафта по «тёплому и уютному месту». Идея уже висит в воздухе. Он нажимает на клавишу. Уши наполняются звуком.

Если вы помните времена, когда пользование гибкими дисками не казалось чем-то странным, то вам, вероятно, не меньше тридцати лет. Гибкие диски, или дискеты, появились примерно в 1970 году, и около трёх десятков лет были основным способом хранения и резервного копирования компьютерных данных. Всё приобретаемое людьми ПО и программы загружались на пачки таких дисков. Это технология из другой компьютерной эпохи, но по разным причинам дискеты по-прежнему привлекательны для некоторых людей, а значит, ещё не умерли.

Читать дальше →

+39

aplemakh88 15 мая в 12:54

Управление нагрузкой, теплом и не только: неочевидные нюансы построения S3-хранилищ

6 мин

2.1K

Блог компании beeline cloudАнализ и проектирование систем*IT-инфраструктура*Хранилища данных*Облачные сервисы*

Привет, Хабр! Меня зовут Антон Аплемах, и я владелец продукта cloudfort в облачном провайдере beeline cloud. В блоге на Хабре и в нашем медиа мы рассказываем про open source, тренды в разработке программного обеспечения и облачные технологии. И сегодня я хочу поговорить про хранилища S3, запуск и настройка которых — нетривиальная задача. Какие услуги на основе объектных хранилищ использует бизнес (включая наш новый продукт cloudfort), и что учитывать при выборе решения.

k0rsakov 13 мая в 13:28

CDC на примитивах

Простой

7 мин

2.5K

PostgreSQL*Data Mining*Big Data*Хранилища данных*Data Engineering*

Туториал

CDC вам не «Centers for Disease Control and Prevention» а «Change data capture». В статье рассказано какие есть виды CDC и как реализовать один из CDC при помощи Debezium.

GlobalSign_admin 11 мая в 21:07

Приватные ссылки — в публичном доступе

3 мин

8.3K

Блог компании GlobalSignИнформационная безопасность*Антивирусная защита*Хранилища данных*Облачные сервисы*

Популярные сканеры на вирусы и вредоносные URL вроде urlscan.io, Hybrid Analysis и Cloudflare radar url scanner хранят у себя большое количество ссылок, которые прошли через сканер. Но оказалось, что эти сервисы также хранят большое количество частных и приватных ссылок:

совместно используемые файлы в облачных хранилищах (например, Dropbox, iCLoud, Sync, Egnyte, Ionos Hidrive, AWS S3);
инструменты NAS с облачным подключением (например, Western Digital Mycloud);
корпоративные коммуникации (Slido, Zoom, Onedrive, Airtable и др.);
ссылки для сброса пароля, ссылки для входа Oauth.

Так происходит в основном по двум причинам: или сами пользователи по ошибке передают приватные ссылки в сканер, или неправильные настройки сканеров выдают ссылки из писем и т. д.

Читать дальше →

+16

SergeyProkhorenko 8 мая в 22:01

Спецификация уникальных идентификаторов UUIDv7 для ключей баз данных и распределенных систем по новому стандарту RFC9562

Средний

14 мин

Высокая производительность*Анализ и проектирование систем*IT-стандарты*Big Data*Хранилища данных*

Аналитика

Долгожданный стандарт RFC9562 "Universally Unique IDentifiers (UUID)" с тремя новыми версиями идентификаторов UUID (6, 7 и 8) вместо малопригодного RFC4122 наконец-то вступил в силу. Я участвовал в разработке нового стандарта. Обзор стандарта можно посмотреть в статье.

Введенные новым стандартом идентификаторы седьмой версии UUIDv7 — это лучшее, что теперь есть для ключей баз данных и распределенных систем. Они обеспечивают такую же производительность, как и bigint. UUIDv7 уже реализованы в том или ином виде в основных языках программирования и в некоторых СУБД.

Сгенерированные UUIDv7 имеют все преимущества UUID и при этом упорядочены по дате и времени создания. Это ускоряет поиск индексов и записей в БД по ключу в формате UUID, значительно упрощает и ускоряет базы данных и распределенные системы. Неупорядоченность значений UUID прежде сдерживала использование UUID в качестве ключей и вынуждала разработчиков выдумывать собственные форматы идентификаторов или довольствоваться последовательными целыми числами в качестве ключей.

Черновик стандарта активно обсуждался на Хабре в апреле 2022 года в комментариях к статье "Встречайте UUID нового поколения для ключей высоконагруженных систем".

Разные участники разработки нового стандарта придерживались различных взглядов, и практически все обсуждавшиеся альтернативные варианты структуры UUIDv7 вошли в стандарт. Поэтому теперь перед разработчиками возникает вопрос, какую из множества возможных спецификаций UUIDv7 реализовывать и применять. Также для массового перехода на UUIDv7 нужна дополнительная функциональность, повышающая привлекательность UUIDv7 для разработчиков и бизнеса.

Предложенная мной ниже спецификация UUIDv7 с дополнительной функциональностью описывает максимально надежный и удобный вариант структуры UUIDv7 для самых сложных и высоконагруженных информационных систем. Функциональность упорядочена по приоритету реализации

+16

AvramovMax 6 мая в 11:35

Подборка внешних жёстких дисков и SSD-накопителей

Простой

12 мин

6.7K

Блог компании FirstVDSХранение данных*Хранилища данных*Компьютерное железоНакопители

Обзор

Сегодня, когда объёмы данных постоянно растут, а терять их становится всё критичнее, использование внешнего накопителя часто становится необходимостью. У каждого из нас есть файлы, которыми мы дорожим — от рабочих документов до фотографий с домашними питомцами. При этом у жёстких дисков есть срок службы и вероятность отказа в самый неподходящий момент. У меня был подобный опыт с накопителем Seagate и ошибкой «муха СС». С тех пор я в обязательном порядке дублирую все важные файлы в облако и ещё на один диск.

Взглянуть на накопители

imzorin 3 мая в 10:38

Цикл статей о Greenplum. Часть 1. GP под капотом

Средний

6 мин

Блог компании Axenix (ex-Accenture)PostgreSQL*SQL*Хранилища данных*Data Engineering*

Обзор

Всем привет!

Как вы знаете, многие поставщики ПО ушли с российского рынка ввиду введённых санкций и многие компании столкнулись с необходимость заняться импортозамещением в кратчайшие сроки. Не стал исключением и наш заказчик. Целевой системой, на которое было принято решение мигрировать старое хранилище, стал Greenplum (далее GP) от компании Arenadata.

Этой статьей мы запускаем цикл материалов посвященных Greenplum. В рамках цикла мы разберем, как вообще устроен GP и как выглядит его архитектура. Постараемся выделить must have практики при работе с данным продуктом, а также обсудим, как можно спроектировать хранилище на GP, осуществлять мониторинг эффективности работы и многое другое. Данный цикл статей будет полезен как разработчикам БД, так и аналитикам.

+20

d3lavar 26 апр в 09:00

Как и почему мы построили Единую историю операций на Citus DB

Простой

6 мин

1.3K

Блог компании ГазпромбанкАдминистрирование баз данных*Хранилища данных*

Кейс

Доступ к единой истории операций — функция, которую сегодня ожидают видеть пользователи любого современного интернет-банкинга. В приложениях Газпромбанка функция существует уже много лет, но некоторое время назад мы решили существенно её переработать. В этой статье я расскажу, что мы поменяли, как и почему мы решили это сделать, а также почему мы гордимся результатом.

Сразу оговорюсь, что не буду углубляться в технические детали и остановлюсь на подходе, который мы решили использовать. Иначе есть риск что статья превратится в километровое полотнище. А если возникнут вопросы, то либо отвечу на них в комментах, либо аккумулирую и попробую разобрать в следующей статье.

EvSV 25 апр в 14:00

Как настроить ETL с json’ами в Apache NiFi

Простой

9 мин

1.8K

Блог компании билайнApache*Big Data*Хранилища данных*Data Engineering*

Туториал

Привет, Хабр! Меня зовут Сергей Евсеев, сегодня я расскажу, как в Apache NiFi настраивается ETL-пайплайн на задаче с JSON’ами. В этом мне помогут инструменты Jolt и Avro. Пост пригодится новичкам и тем, кто выбирает инструмент для решения схожей задачи.

Что делает наша команда

Команда работает с данными по рекрутингу — с любой аналитикой, которая необходима персоналу подбора сотрудников. У нас есть различные внешние или внутренние источники, из которых с помощью NiFi или Apache Spark мы забираем данные и складируем к себе в хранилище (по умолчанию Hive, но есть еще PostgreSQL и ClickHouse). Этими же инструментами мы можем брать данные из хранилищ, создавать витрины и складывать обратно, предоставлять данные внутренним клиентам или делать дашборды и давать визуализацию.

Описание задачи

У нас есть внешний сервис, на котором рекрутеры работают с подбором. Сервис может отдавать данные через свою API, а мы эти данные можем загружать и складировать в хранилище. После загрузки у нас появляется возможность отдавать данные другим командам или работать с ними самим. Итак, пришла задача — нужно загрузить через API наши данные. Дали документацию для загрузки, поехали. Идем в NiFi, создаем пайплайн для запросов к API, их трансформации и складывания в Hive. Пайплайн начинает падать, приходится посидеть, почитать документацию. Чего-то не хватает, JSON-ы идут не те, возникают сложности, которые нужно разобрать и решить.

Ответы приходят в формате JSON. Документации достаточно для начала загрузки, но для полного понимания структуры и содержимого ответа — маловато.

Мы решили просто загружать все подряд — на месте разберемся, что нам нужно и как мы это будем грузить, потом пойдем к источникам с конкретными вопросами. Так как каждый метод API отдает свой класс данных в виде JSON, в котором содержится массив объектов этого класса, нужно построить много таких пайплайнов с обработкой разного типа JSON’ов. Еще одна сложность — объекты внутри одного и того же класса могут отличаться по набору полей и их содержимому. Это зависит от того, как, например, сотрудники подбора заполнят информацию о вакансии на этом сервисе. Этот API работает без версий, поэтому в случае добавления новых полей информацию о них мы получим только либо из данных, либо в процессе коммуникации.

+15

asuleykin 25 апр в 13:27

Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы

Средний

10 мин

1.4K

Open source*Администрирование баз данных*Big Data*Хранение данных*Хранилища данных*

Кейс

В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NiFi, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.

Статья полезна специалистам и руководителям, которые работают с данными решениями и делают ставку на них в части импортозамещения аналогичных технологий. Статья дает обзор основных сложностей внедрения на примере реального кейса, описывает архитектуру и особенности при совместном использовании решений.

Siphon 23 апр в 14:15

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Простой

7 мин

1.6K

Python*Apache*Хранение данных*Хранилища данных*Data Engineering*

Из песочницы

Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных.

В статье опишу, почему для реализации проекта мы выбрали именно Apache Druid, с какими особенностями реализации столкнулись, как сравнивали методы реализации датасорсов.

qlever 22 апр в 18:26

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

9 мин

4.7K

Анализ и проектирование систем*Администрирование баз данных*Big Data*Хранение данных*Хранилища данных*

В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.

Maxilect 19 апр в 07:40

Как мы переносили базу Clickhouse между географически удаленными дата-центрами

Средний

6 мин

2.3K

Блог компании MaxilectСистемное администрирование*Администрирование баз данных*Хранилища данных*DevOps*

Туториал

В конце прошлого года мы писали о сложном переезде нашего собственного сервиса в новый дата-центр в Детройте. Среди прочих задач мы переносили Clickhouse. Напомню, что речь идет о нагруженном сервисе, который обслуживает десятки серверов, принимающих сотни тысяч запросов с низкой latency в секунду.

В этой статье рассказываем, как мы переносили данные, не имея возможности отключить сервис или воспользоваться автоматической репликацией.

Объем данных для Clickhouse у нас не такой уж и большой - процесс получился не столько объемный, сколько ресурсоемкий. Но в открытых источниках информации по использованным механизмам минимум, поэтому считайте это руководством к clickhouse-copier утилите (https://github.com/ClickHouse/copier) на конкретном примере со скриптами и командами для запуска.

+12

ghostklart 18 апр в 14:37

Домашняя лаба. Как собрать домашнюю инфраструктуру мечты

Простой

10 мин

23K

Тестирование IT-систем*Серверное администрирование*Хранилища данных*

Ретроспектива

Recovery Mode

Мой первый опыт на Хабре получился не очень положительным, и, признаюсь, до сих пор смотря на комментарии и оценки, мне стыдно и больно где-то внутри.

Потому в имя исправления ошибок молодости решил написать серию статей о том, как дома собрать свою "идеальную" хранилку, или сервак, или мини облако. Поделюсь опытом, своими знаниями и пониманием, а также мыслями, которые могут помочь выполняя похожую задачу для себя.

avshkol 18 апр в 01:15

Восхитительная теория [якорных] баз данных от Ларса Рённбека

Средний

10 мин

6.3K

Big Data*Математика*Хранилища данных*Исследования и прогнозы в IT*Data Engineering*

Мнение

Перевод

Обнаружил серию статей по принципам организации информации и базам данных от математика из Стокгольмского университета и с энтузиазмом перевожу. Моя уверенность в том, что реляционки с 3-й формой нормализации - лучшее, что придумало человечество, резко убавилась... Я бы назвал это "субъективной теорией информации", автор называет "Transitional modeling", но обычно это применяется под названием "якорная модель данных"...

Viktoria_Rein 15 апр в 20:42

Как бизнес-аналитику выстроить работу в проектах DWH (Data Warehouse). Структура работ

6 мин

4.4K

Хранилища данных*Карьера в IT-индустрии

Привет, аналитики!

В прошлый раз мы разобрались, как бизнес-аналитику наладить взаимодействие со стейкхолдерами и превратить их противоречивые требования в единую систему.

Сегодня я хочу поговорить о дальнейшей работе аналитика в проектах по созданию хранилищ данных (DWH). Как пройти весь путь от сбора требований до внедрения готового решения, сохраняя баланс интересов бизнеса и ИТ.

Мы уже выяснили потребности пользователей и достигли консенсуса по целям системы. Теперь предстоит воплотить эти требования в реальное DWH. И здесь нас ждет не меньше подводных камней, чем на этапе согласования.

Как избежать недопонимания между бизнесом и ИТ в ходе проектирования? Как убедиться, что разработанное решение действительно решает задачи заказчика? И как помочь пользователям безболезненно перейти на новую систему?

aksinia_laskova 11 апр в 15:31

Что такое Data Service и почему он может быть вам полезен

8 мин

2.3K

Блог компании МТСBig Data*Хранилища данных*История IT

Привет, Хабр! На связи группа экспертов по управлению данными из МТС.
А именно: Патрисия Кошман — руководитель группы (управление метаданными) и Аксинья Ласкова — эксперт по практикам качества данных.

Сервисы МТС собирают огромное количество данных разных типов и качества, начиная с информации об оборудовании сети и заканчивая данными о кинопроизводстве. Естественно, эти данные нужно хранить, обрабатывать и находить им применение.

Как это происходит у нас — рассказали под катом!

PB_Academy 9 апр в 11:26

Ликбез по методологиям проектирования хранилищ данных

Простой

2 мин

9.4K

Big Data*Хранение данных*Хранилища данных*

Из песочницы

Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.

Рассмотрим сильные и слабые стороны самых популярных методологий.

2 3 ...

57 58

Хранилища данных *

Кибер Инфраструктура 5.5. Обзор новинок

Новости

Распределенная трассировка с Jaeger и Clickhouse

Почему люди до сих пор не отказались от дискет

Управление нагрузкой, теплом и не только: неочевидные нюансы построения S3-хранилищ

Истории

CDC на примитивах

Приватные ссылки — в публичном доступе

Спецификация уникальных идентификаторов UUIDv7 для ключей баз данных и распределенных систем по новому стандарту RFC9562

Подборка внешних жёстких дисков и SSD-накопителей

Цикл статей о Greenplum. Часть 1. GP под капотом

Как и почему мы построили Единую историю операций на Citus DB

Как настроить ETL с json’ами в Apache NiFi

Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Ближайшие события

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

Как мы переносили базу Clickhouse между географически удаленными дата-центрами

Домашняя лаба. Как собрать домашнюю инфраструктуру мечты

Восхитительная теория [якорных] баз данных от Ларса Рённбека

Как бизнес-аналитику выстроить работу в проектах DWH (Data Warehouse). Структура работ

Что такое Data Service и почему он может быть вам полезен

Ликбез по методологиям проектирования хранилищ данных

Вклад авторов