Как стать автором

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

СтатьиПостыНовостиАвторыКомпании

SrvTrantor 13 мая в 12:01

ЦОД 2050: три реалистичные концепции развития дата-центров

Простой

7 мин

4.5K

Блог компании RUVDS.comIT-инфраструктура*Будущее здесьСетевые технологии*Хранилища данных*

Обзор

Что будет с дата-центрами, когда физические пределы достигнуты? Когда PUE упадёт ниже единицы, а каждая новая стойка будет выходить в минус? Ответ уже начинает проявляться. Новый виток эволюции ЦОДов не в росте плотности или увеличении каналов. Он — в изменении самой парадигмы: дата-центр не как здание, а как среда, экосистема, организм. В статье представил три сценария будущего дата-центров.

Спойлер: ни одна из описанных ниже концепций не является фантастикой. Все они — логическое продолжение уже происходящих процессов.

Читать дальше →

+41

EvgenyVilkov 13 мая в 09:29

Пакетная репликация данных в аналитическом ландшафте ХД

Средний

14 мин

546

Блог компании Data SapienceBig Data*Хранилища данных*Hadoop*Data Engineering*

Обзор

Наполнение данными хранилища или озера, как правило, является первым большим шагом к доступности аналитической среды для основного функционала и работы конечных пользователей. От эффективной реализации этой задачи зависят стоимость и длительность всего проекта по созданию хранилища данных и сроки предоставления отдельных data-сервисов.

В этой публикации я поделюсь опытом реализации пакетной загрузки больших данных в аналитические хранилища и расскажу, когда следует выбрать именно пакетную загрузку, а когда – онлайн-подход. Отдельно раскрою, как многолетний опыт решения подобных задач был воплощен в промышленном инструменте репликации данных.

Читать далее

0

meliksetyan 12 мая в 15:54

Мы в ответе за тех, кого сгенерировали

Простой

3 мин

1.1K

Облачные сервисы*Управление разработкой*Хранение данных*Хранилища данных*

Мнение

Recovery Mode

Весна 2025 года — отличное время, чтобы оживить мой проект Econet, который посвящён проблемам цифрового мусора, современным подходам к работе с данными и инфраструктуре информационных систем.

Читать далее

+4

Akhtem94 10 мая в 14:46

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

Сложный

3 мин

929

Java*Apache*Big Data*Хранилища данных*

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

Читать далее

0

LvovKirill 7 мая в 10:15

DBT: трансформация данных без боли

Средний

13 мин

1.7K

Big Data*SQL*Data Engineering*Хранилища данных*IT-инфраструктура*

Из песочницы

Привет! Меня зовут Кирилл Львов, я fullstack-разработчик в компании СберАналитика. В этой статье хочу рассказать про мощный инструмент трансформации данных — DBT (Data Build Tool).

Сегодня любой средний и крупный бизнес хранит множество данных в разрозненных источниках (CRM, ERP, HRM, базы данных, файловые хранилища и т.д.). Каждая из этих систем самодостаточна и закрывает определённую боль бизнеса, но собрав данные из таких источников и стандартизировав их, нам открывается возможность анализировать данные, строить модели машинного обучения и принимать на основе этих данных управленческие решения. Для того чтобы реализовать такой подход строятся ELT (или ETL) процессы. ELT (Extract, Load, Transform) — это процесс, состоящий из трех этапов:

Читать далее

+6

GrishinAlex 6 мая в 11:20

Версионирование объектов в S3: пример работы с версиями в Python

Простой

4 мин

3.7K

Блог компании SelectelPython*Облачные сервисы*Хранилища данных*

Обзор

Версионирование объектов в S3-хранилищах — это мощный механизм, который позволяет отслеживать изменения файлов, предотвращать их случайное удаление и восстанавливать предыдущие версии. Это особенно полезно при работе с резервными копиями или чувствительными данными — есть возможность в любой момент вернуться к определенному состоянию объекта или восстановить его даже после удаления.

Всем привет! Меня зовут Гришин Александр, я продакт-менеджер и отвечаю за развитие объектного хранилища и облачных баз данных. В этой статье расскажу, как включить версионирование в объектном хранилище Selectel и работать с ним через Python с использованием библиотеки boto3 и панель управления. Материал пригодится как инженерам облачной инфраструктуры, так и разработчикам приложений.

Читать дальше →

+46

InfoWatch 5 мая в 15:10

Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями

Средний

13 мин

4.3K

Блог компании InfoWatchБазы данных*Хранилища данных*Программирование*Big Data*

Обзор

Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска.

В этой статье я сравниваю пять методов поиска похожих векторов:
— полный перебор по евклидову расстоянию с реализацией в Python;
— FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние);
— векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство).

Читать далее

+13

ShilovskyAnton 4 мая в 14:36

Побег от WSL или Как превратить старый ноутбук в домашний сервер для хранения данных и удаленной работы

Средний

10 мин

29K

Системное администрирование*Настройка Linux*Хранение данных*Серверное администрирование*Хранилища данных*

Кейс

Делюсь личным опытом превращения старенького ноутбука ASUS X552CL (Intel i5-5200U, 12 ГБ RAM, SSD + HDD), выпущенный 12 лет назад, в полноценный домашний сервер под Linux Ubuntu Server 24.04.5 LTS.

Получилось что-то вроде мини-датацентра на дому — он хранит файлы на жёстком диске с бэкапом в облаке, Docker-контейнеры крутит для дата-аналитики и даже имеет легковесный интерфейс XFCE, при этом есть потенциал к росту до терминала для управления умным домом. Расскажу, почему было решено отказаться от WSL на рабочем ноутбуке Huawei, как настроить удалённый доступ через xRDP (чтобы не было чёрного экрана), запустить там Docker, сборку Superset и JupyterLab с Anaconda (с разными версиями Python), прикрутить Samba-шару для домашнего использования и организовать бэкап в облачном хранилище. В этой статье будет немного технических деталей, щепотка шуток и парочка мемов с советскими плакатами.

Читать далее

+55

KoshelevGeorge1989 30 апр в 19:42

Взлом зашифрованного pdf-файла. Взлом зашифрованных архивов rar, zip, 7z. Утилиты pdfcrack, rarcrack и не только

Простой

3 мин

33K

PDFИнформационная безопасность*Хранилища данных*

Туториал

Всех приветствую, читатели Хабра!

В сегодняшней статье я поделюсь примерами кракинга зашифрованных паролями pdf-файлов и файлов архивов. Я покажу примеры работы с такими программами как pdfcrack, rarcrack, John the Ripper. Естественно данные программы работают в линукс (в моем случае Kali Linux), но под Windows я думаю есть аналоги данных программ. И да, в этой статье я затрону примеры связанные с john, хоть возможно на Хабре и имеются статьи связанные с данной программой (а в русскоязычном сегменте интернет точно есть описания как с ней работать), но в рамках данной статьи мои примеры будут уместны и необходимы. Это своего рода онлайн-шпаргалка по использованию данных утилит

Примечание

Правовая информация:

Данная статья создана исключительно в ознакомительных/образовательных/развивающих целях.
Автор статьи не несет ответственности за ваши действия.
Автор статьи ни к чему не призывает, более того напоминаю о существовании некоторых статей в уголовном кодексе РФ, их никто не отменял:
УК РФ Статья 272. Неправомерный доступ к компьютерной информации
УК РФ Статья 273. Создание, использование и распространение вредоносных компьютерных программ
УК РФ Статья 274. Нарушение правил эксплуатации средств хранения, обработки или передачи компьютерной информации и информационно-телекоммуникационных сетей

Все атаки я проводил на своем персональном компьютере, где создавал собственные файлы, которые и атаковал, то есть все действия легитимны.

И как всегда просьба не переходить на личности в комментариях, если вы обнаружили ошибку недочет или неточность, просто без оскорблений напишите комментарий или напишите мне личным сообщением.

Читать далее

+26

PavelKhamrin 28 апр в 15:32

BI умер, да здравствует BI

Простой

11 мин

7.7K

Хранилища данных*Визуализация данных*Python*

Мнение

Всех приветствую! Зовут меня Павел, работаю в Datapulse. Создаем различные решения для автоматизации DWH.

Мы живем в переходном периоде, когда на смену традиционным инструментам и подходам в data-engineer приходят новые. То, что еще вчера казалось стандартом де-факто, сегодня все чаще воспринимается как анахронизм. Пример тому - война GUI («гуевых») ETL инструментов со скриптовыми закончилась безоговорочной победой последних. Скрипты взяли верх благодаря своей масштабируемости, возможности применения Git и лучшей интеграции в процессы CI/CD.

А что же с BI? Мы привыкли к мастодонтам: PowerBI, Tableau, Qlik. Либо open-source: Superset, Metabase. Они в свое время стали стандартом, захватив большую часть рынка, а sales manager получали очень неплохие премии за их внедрение. И, казалось, время молочных рек и кисельных берегов не закончится никогда. Компании продолжат тратить кучу денег на красивенькие графики, которыми не пользуются, а в сообществе аналитиков будут лишь рассуждать о том, как доказать упертому менеджеру, что дашборд-вундервафля в PowerBI гораздо удобнее старого доброго Excel (шутка).

А времена эти, если и не прошли, то близятся к закату. Старые короли чахнут и умирают. Приветствуем новых!

Читать далее

+13

Kettariecz 28 апр в 13:49

Использование системной модели для проектирования аналитических хранилищ. Часть 1: описание модели для проектирования

Средний

5 мин

411

Анализ и проектирование систем*Визуализация данных*Управление продуктом*Хранилища данных*Data Engineering*

> Данная статья -- результат моего выступления на конференции AMITA. И первый шаг в создании диссертации. Тема еще требует проработки, но кажется мне перспективной. Поэтому этой статьей я хочу призвать силу хабрасообщества -- для критики, обсуждения или поддержки (как пойдет).

Проектирование хранилища «от интерфейсов» (когда сначала прорабатывается интерфейс дашборда, а потом определяются необходимые для его работы данные и алгоритмы их обработки), по моему мнению, при внедрении в масштабах всего предприятия становится излишне сложным, так как вместе с количеством пользователей возрастает и количество интерфейсов.

Последовательный же перебор всех стейкхолдеров приводит к появлению фактически разных метрик под одним и тем же названием, а так же к формированию интерфейсов «из того, что есть», а не из тех данных, которые действительно требуются. Нередко в таком случае дизайн интерфейса выходит на первое место относительно полноты и реальной необходимости представляемых им данных.

Читать далее

+1

ManticoreSearch 25 апр в 17:50

Интеграция Kafka с Manticore Search: пошаговое руководство по обработке данных в реальном времени

Средний

10 мин

1.7K

C++*Open source*Поисковые технологии*Хранилища данных*GitHub*

Туториал

Kafka — это популярный брокер сообщений, который используется в самых разных проектах: от обработки логов и управления очередями задач до персонализации контента и аналитики в реальном времени. Например, его можно использовать для индексирования изменений в Википедии или поиска товаров в интернет-магазинах. Manticore Search, в свою очередь, поддерживает интеграцию с Kafka, что позволяет автоматически импортировать данные и использовать их для полнотекстового поиска, аналитики, векторного поиска и многого другого.

При импорте данных в Manticore вы можете гибко их обрабатывать:

Читать далее

+4

Legal-UP 24 апр в 21:00

Отвечает ли CRM за сохранность ПД и как не нарушить закон при хранении ПД в обычной таблице

Простой

2 мин

2.3K

Хранение данных*Хранилища данных*Информационная безопасность*Веб-аналитика*

Туториал

Сегодня утром вы открыли глаза и четко осознали: бизнесу нужно развиваться! Отлично, используйте все легальные доступные инструменты.

Только, пожалуйста, не развивайте свое дело, пренебрегая обязательными пунктами ведения бизнеса, которые установило законодательство. Я о работе с персональными данными. Не устаю напоминать, потому что это действительно важно.

Сегодня разбираю законность хранения ПД в обычных таблицах и CRM-системах. Вам нужно это знать, даже если в вашей компании работает три человека

Узнать про хранение ПД в таблицах и CRM

+3

LUREIT 24 апр в 16:10

Варианты усиления фальшпола для ЦОД

Простой

8 мин

852

Блог компании LURE ITИнженерные системы*Подготовка технической документации*Хранилища данных*IT-инфраструктура*

Туториал

Современные потребности в Центрах Обработки Данных достигли невероятных масштабов, превратив их проектирование и строительство в практически рутинный процесс. Каждый заказчик стремится получить больше, чем просто стандартное решение: им нужны ЦОД, которые соответствуют принципу «Больше, выше сильнее». Больше машзалов, выше потолки, мощнее охлаждение. Иногда эти запросы доходят до экзотических решений, таких как размещение ЦОД в регионах с холодным климатом, например, в Скандинавии, где естественная вечная мерзлота используется для охлаждения серверов, или даже подводные дата-центры, которые погружаются на дно океана для снижения затрат на охлаждение.

Однако, несмотря на такие необычные подходы, большинство проектов ЦОД остаются довольно типичными. Тем не менее, каждый из них имеет свои уникальные особенности и нюансы, которые возникают из-за классической дилеммы: «Быстрее, лучше, дешевле — выбери только два». При разработке проекта часто приходится выбирать между тем или иным решением, обосновывая свою позицию экономией средств или большей надежностью. Эта проблема становится ключевой при разработке любого проекта, заставляя инженеров и архитекторов постоянно искать компромиссы. Например, приходится выбирать между более дорогим, но надежным оборудованием и бюджетными решениями, которые могут сэкономить средства, но потребуют дополнительных усилий для обеспечения стабильной работы. Каждый выбор требует тщательного обоснования, будь то экономия ресурсов или повышение надежности инфраструктуры.

Читать далее

+1

SrvTrantor 23 апр в 12:01

Зачем Switch построила ЦОД в пустыне, а IBM — в бывшей рудной шахте: 10 необычных локаций дата-центров

Простой

5 мин

5.5K

Блог компании RUVDS.comIT-инфраструктура*Сетевые технологии*Хранилища данных*

Обзор

Спрос на услуги дата-центров растёт. По прогнозам, к 2030 году мировой рынок ЦОДов достигнет $409,1 млрд. Это обусловлено тем, что всё больше компаний переводят операции в облаках, работают с ИИ, большими данными и требуют от инфраструктуры скорости, надёжности и энергоэффективности.

Именно поэтому дата-центры появляются не только в привычных индустриальных зонах, но и в самых неожиданных местах — от подземных шахт до дна океана. Рассмотрим необычные локации и попытаемся выяснить, почему компании выбрали такие базы для серверов.

Читать дальше →

+42

Oleg_Dmitriev1 22 апр в 09:24

Аналитика по скидке: когда клиенты готовы платить только впечатлениями

Простой

5 мин

1K

Data Engineering*Big Data*Визуализация данных*Хранилища данных*

Мнение

Аналитика по скидке: когда клиенты готовы платить только впечатлениями

Если данные новая нефть, то почему за нее не готовы платить?

Как измерить ценность внедрения аналитики?

Читать далее

+3

ShilovskyAnton 17 апр в 20:34

Делиться знаниями — значит расти. 6 шагов к построению базы знаний на основе Data Warehouse (DWH)

Простой

8 мин

2K

Хранилища данных*Хранение данных*Исследования и прогнозы в IT*Управление сообществом*Управление продуктом*

Кейс

Recovery Mode

Этот текст — эссенция практического опыта креативного специалиста, который помогает бизнесу находить технические решения в области построения базы знаний. Решил поделиться своими заметками об архитектуре хранилища данных (DWH) и написать, почему важно хранить корпоративные данные в едином хранилище, как преодолеть внутренние барьеры (вроде страха критики и синдрома самозванца) для начала обмена знаниями и какими техническими и организационными решениями можно сделать этот процесс удобным и полезным. В статье — живой опыт, конкретные советы и немного вдохновения для тех, кто только начинает делиться знаниями внутри команды.

Читать далее

+8

qlever 17 апр в 15:42

Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

11 мин

6.4K

Big Data*Хранение данных*Хранилища данных*Системное администрирование*DevOps*

В статье рассказываем, что такое Ansible и как инструмент может применяться в проектах DWH: от автоматического развертывания и настройки компонентов до восстановления после сбоев и централизованного управления параметрами.

Сравниваем Ansible с другими инструментами для автоматизации управления инфраструктурой: Puppet, Chef, SaltStack.

Читать далее

+5

GrishinAlex 16 апр в 15:05

Асинхронно копируем объекты между регионами S3 с помощью Python

Средний

6 мин

4.2K

Блог компании SelectelPython*Облачные сервисы*Хранение данных*Хранилища данных*

Обзор

Привет, Хабр! Я Александр Гришин, отвечаю за развитие облачных баз данных и объектного хранилища в Selectel. В своей практике часто сталкиваюсь с разными задачами клиентов. Среди них, например: реализовать репликацию данных между удаленными друг от друга регионами, отработать домен отказа «Регион» и повысить уровень отказоустойчивости своих сервисов, убрав привязку к одному городу и инфраструктуре. Сегодня я расскажу, как легко реализовать асинхронную репликацию данных в инфраструктуре Selectel, используя Python и boto3. Погнали!

Читать дальше →

+36

aabzel 15 апр в 14:28

NVRAM из EEPROM

Простой

3 мин

2.8K

Программирование микроконтроллеров*Производство и разработка электроники*Хранение данных*Хранилища данных*C*

Туториал

Дана функция чтения и записи EEPROM dword.

Запись и стирание возможно только по выровненному адресу и пословно.

Надо поверх EEPROM API сделать функцию чтения, записи и стирания для произвольных массивов байт, по произвольному адресу (NVRAM).

Простыми словами надо состыковать Dword API с Byte API.

В этом тексте я представил простой наивный алгоритм решения данной задачи.

Читать далее

+2

2

3 4 ...