Все потоки

Хранение данных *

Что имеем, то храним

СтатьиПостыНовостиАвторыКомпании

EvgenyVilkov 13 мая в 06:29

Пакетная репликация данных в аналитическом ландшафте ХД

Средний

14 мин

986

Блог компании Data SapienceХранение данных * Data Engineering * Hadoop * Big Data *

Обзор

Наполнение данными хранилища или озера, как правило, является первым большим шагом к доступности аналитической среды для основного функционала и работы конечных пользователей. От эффективной реализации этой задачи зависят стоимость и длительность всего проекта по созданию хранилища данных и сроки предоставления отдельных data-сервисов.

В этой публикации я поделюсь опытом реализации пакетной загрузки больших данных в аналитические хранилища и расскажу, когда следует выбрать именно пакетную загрузку, а когда – онлайн-подход. Отдельно раскрою, как многолетний опыт решения подобных задач был воплощен в промышленном инструменте репликации данных.

Читать далее

0

meliksetyan 12 мая в 12:54

Мы в ответе за тех, кого сгенерировали

Простой

3 мин

1.2K

Хранение данных * Управление разработкой * Облачные сервисы *

Мнение

Recovery Mode

Весна 2025 года — отличное время, чтобы оживить мой проект Econet, который посвящён проблемам цифрового мусора, современным подходам к работе с данными и инфраструктуре информационных систем.

Читать далее

+4

kolkoni 11 мая в 17:01

PTTJS — формат текстового хранения комплексных таблиц

Средний

5 мин

2.7K

Хранение данных * Машинное обучение * Open source * IT-стандарты *

Кейс

PTTJS - plain text table javascript, формат разработанный из личной необходимости и острой нужды.

Главная цель формата PTTJS - получить текстовый формат таблиц, который позволяет хранить более сложные таблицы, нежели существующие форматы, но при этом сохранять читаемость и текстовую основу.

Уже написаны JS библиотека с парсером и сериализатором, а также Obsidian плагин.

Читать далее

+16

Akhtem94 10 мая в 11:46

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

Сложный

3 мин

987

Хранение данных * Big Data * Apache * Java *

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

Читать далее

0

suenot 9 мая в 14:17

Как я чищу диск на MacOS и какой внешний накопитель выбрал

Простой

3 мин

10K

Хранение данных *

Туториал

Привет, Хабр! Недавно брат поинтересовался, как я решаю проблему с вечно забитым диском на MacBook, и я решил не только ему ответить, но и поделиться своим опытом со всеми. Расскажу, как бороться с нехваткой места и какой внешний накопитель выбрать, чтобы не разориться и не разочароваться.

Читать далее

+14

LvovKirill 7 мая в 07:15

DBT: трансформация данных без боли

Средний

13 мин

3.3K

SQL * IT-инфраструктура * Big Data * Data Engineering * Хранение данных *

Из песочницы

Привет! Меня зовут Кирилл Львов, я fullstack-разработчик в компании СберАналитика. В этой статье хочу рассказать про мощный инструмент трансформации данных — DBT (Data Build Tool).

Сегодня любой средний и крупный бизнес хранит множество данных в разрозненных источниках (CRM, ERP, HRM, базы данных, файловые хранилища и т.д.). Каждая из этих систем самодостаточна и закрывает определённую боль бизнеса, но собрав данные из таких источников и стандартизировав их, нам открывается возможность анализировать данные, строить модели машинного обучения и принимать на основе этих данных управленческие решения. Для того чтобы реализовать такой подход строятся ELT (или ETL) процессы. ELT (Extract, Load, Transform) — это процесс, состоящий из трех этапов:

Читать далее

+6

GrishinAlex 6 мая в 08:20

Версионирование объектов в S3: пример работы с версиями в Python

Простой

4 мин

4K

Блог компании SelectelPython * Облачные сервисы * Хранение данных *

Обзор

Версионирование объектов в S3-хранилищах — это мощный механизм, который позволяет отслеживать изменения файлов, предотвращать их случайное удаление и восстанавливать предыдущие версии. Это особенно полезно при работе с резервными копиями или чувствительными данными — есть возможность в любой момент вернуться к определенному состоянию объекта или восстановить его даже после удаления.

Всем привет! Меня зовут Гришин Александр, я продакт-менеджер и отвечаю за развитие объектного хранилища и облачных баз данных. В этой статье расскажу, как включить версионирование в объектном хранилище Selectel и работать с ним через Python с использованием библиотеки boto3 и панель управления. Материал пригодится как инженерам облачной инфраструктуры, так и разработчикам приложений.

Читать дальше →

+46

InfoWatch 5 мая в 12:10

Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями

Средний

13 мин

5.3K

Блог компании InfoWatchПрограммирование * Базы данных * Big Data * Хранение данных *

Обзор

Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска.

В этой статье я сравниваю пять методов поиска похожих векторов:
— полный перебор по евклидову расстоянию с реализацией в Python;
— FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние);
— векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство).

Читать далее

+13

AleksGRV 4 мая в 21:16

Как хранить кадровые документы в 2025 году: правила, сроки хранения, ЭДО и автоматизация

Средний

20 мин

5.1K

Информационная безопасность * Хранение данных * Криптография *

Туториал

Хранение кадровых документов в организации — это уже не просто полки с папками в архиве. В России продолжается активный переход на электронный документооборот. Но вместе с новыми технологиями появляются и новые обязанности: хранить кадровые документы в электронном виде правильно — задача не только IT-специалистов, но и юристов, кадровиков, руководителей. Ошибка может обернуться штрафом, трудовым спором или полной утратой юридически значимых данных.

Читать далее

+12

ShilovskyAnton 4 мая в 11:36

Как превратить старый ноутбук в домашний сервер для хранения данных и удаленной работы

Средний

10 мин

38K

Настройка Linux * Системное администрирование * Серверное администрирование * Хранение данных *

Кейс

Делюсь личным опытом превращения старенького ноутбука ASUS X552CL (Intel i5-5200U, 12 ГБ RAM, SSD + HDD), выпущенный 12 лет назад, в полноценный домашний сервер под Linux Ubuntu Server 24.04.5 LTS.

Получилось что-то вроде мини-датацентра на дому — он хранит файлы на жёстком диске с бэкапом в облаке, Docker-контейнеры крутит для дата-аналитики и даже имеет легковесный интерфейс XFCE, при этом есть потенциал к росту до терминала для управления умным домом. Расскажу, почему было решено отказаться от WSL на рабочем ноутбуке Huawei, как настроить удалённый доступ через xRDP (чтобы не было чёрного экрана), запустить там Docker, сборку Superset и JupyterLab с Anaconda (с разными версиями Python), прикрутить Samba-шару для домашнего использования и организовать бэкап в облачном хранилище. В этой статье будет немного технических деталей, щепотка шуток и парочка мемов с советскими плакатами.

Читать далее

+52

NullVibes 1 мая в 18:43

Интеграция с Яндекс Метрикой и выгрузка данных .NET

Простой

7 мин

1.9K

.NET * C# * Хранение данных *

Из песочницы

В этой статье рассмотрим пример реализации .NET сервиса для работы с API Яндекс Метрики, включая авторизацию, получение данных и их синхронизацию с БД.

Читать далее

+2

KoshelevGeorge1989 30 апр в 16:42

Взлом зашифрованного pdf-файла. Взлом зашифрованных архивов rar, zip, 7z. Утилиты pdfcrack, rarcrack и не только

Простой

3 мин

35K

Хранение данных * PDFИнформационная безопасность *

Туториал

Всех приветствую, читатели Хабра!

В сегодняшней статье я поделюсь примерами кракинга зашифрованных паролями pdf-файлов и файлов архивов. Я покажу примеры работы с такими программами как pdfcrack, rarcrack, John the Ripper. Естественно данные программы работают в линукс (в моем случае Kali Linux), но под Windows я думаю есть аналоги данных программ. И да, в этой статье я затрону примеры связанные с john, хоть возможно на Хабре и имеются статьи связанные с данной программой (а в русскоязычном сегменте интернет точно есть описания как с ней работать), но в рамках данной статьи мои примеры будут уместны и необходимы. Это своего рода онлайн-шпаргалка по использованию данных утилит

Примечание

Правовая информация:

Данная статья создана исключительно в ознакомительных/образовательных/развивающих целях.
Автор статьи не несет ответственности за ваши действия.
Автор статьи ни к чему не призывает, более того напоминаю о существовании некоторых статей в уголовном кодексе РФ, их никто не отменял:
УК РФ Статья 272. Неправомерный доступ к компьютерной информации
УК РФ Статья 273. Создание, использование и распространение вредоносных компьютерных программ
УК РФ Статья 274. Нарушение правил эксплуатации средств хранения, обработки или передачи компьютерной информации и информационно-телекоммуникационных сетей

Все атаки я проводил на своем персональном компьютере, где создавал собственные файлы, которые и атаковал, то есть все действия легитимны.

И как всегда просьба не переходить на личности в комментариях, если вы обнаружили ошибку недочет или неточность, просто без оскорблений напишите комментарий или напишите мне личным сообщением.

Читать далее

+23

0xdde 29 апр в 12:48

Эволюция хранилища ВКонтакте: от первой реализации до наших дней

Средний

9 мин

3.9K

Блог компании VKРаспределённые системы * Хранение данных * Базы данных *

Кейс

Привет, Хабр! Последние несколько лет я занимаюсь разработкой баз данных ВКонтакте. Аудитория такой крупной соцсети ежедневно генерирует огромные массивы информации.

В этой статье я расскажу про хранилище ВКонтакте: как оно менялось, что мы делаем для оптимизации занятого места и как гарантируем сохранность данных.

Читать далее

+40

PavelKhamrin 28 апр в 12:32

BI умер, да здравствует BI

Простой

11 мин

8.2K

Python * Визуализация данных * Хранение данных *

Мнение

Всех приветствую! Зовут меня Павел, работаю в Datapulse. Создаем различные решения для автоматизации DWH.

Мы живем в переходном периоде, когда на смену традиционным инструментам и подходам в data-engineer приходят новые. То, что еще вчера казалось стандартом де-факто, сегодня все чаще воспринимается как анахронизм. Пример тому - война GUI («гуевых») ETL инструментов со скриптовыми закончилась безоговорочной победой последних. Скрипты взяли верх благодаря своей масштабируемости, возможности применения Git и лучшей интеграции в процессы CI/CD.

А что же с BI? Мы привыкли к мастодонтам: PowerBI, Tableau, Qlik. Либо open-source: Superset, Metabase. Они в свое время стали стандартом, захватив большую часть рынка, а sales manager получали очень неплохие премии за их внедрение. И, казалось, время молочных рек и кисельных берегов не закончится никогда. Компании продолжат тратить кучу денег на красивенькие графики, которыми не пользуются, а в сообществе аналитиков будут лишь рассуждать о том, как доказать упертому менеджеру, что дашборд-вундервафля в PowerBI гораздо удобнее старого доброго Excel (шутка).

А времена эти, если и не прошли, то близятся к закату. Старые короли чахнут и умирают. Приветствуем новых!

Читать далее

+13

Kettariecz 28 апр в 10:49

Использование системной модели для проектирования аналитических хранилищ. Часть 1: описание модели для проектирования

Средний

5 мин

477

Анализ и проектирование систем * Визуализация данных * Управление продуктом * Data Engineering * Хранение данных *

> Данная статья -- результат моего выступления на конференции AMITA. И первый шаг в создании диссертации. Тема еще требует проработки, но кажется мне перспективной. Поэтому этой статьей я хочу призвать силу хабрасообщества -- для критики, обсуждения или поддержки (как пойдет).

Проектирование хранилища «от интерфейсов» (когда сначала прорабатывается интерфейс дашборда, а потом определяются необходимые для его работы данные и алгоритмы их обработки), по моему мнению, при внедрении в масштабах всего предприятия становится излишне сложным, так как вместе с количеством пользователей возрастает и количество интерфейсов.

Последовательный же перебор всех стейкхолдеров приводит к появлению фактически разных метрик под одним и тем же названием, а так же к формированию интерфейсов «из того, что есть», а не из тех данных, которые действительно требуются. Нередко в таком случае дизайн интерфейса выходит на первое место относительно полноты и реальной необходимости представляемых им данных.

Читать далее

+1

alizar 28 апр в 09:01

MP3 устарел. Будущее за современными lossless-кодеками

Средний

7 мин

15K

Блог компании RUVDS.comIT-стандарты * ЗвукСжатие данных * Хранение данных *

Обзор

Сравнение производительности lossless-кодеков на материале CD-качества, то есть аудиофайлах PCM с битовой глубиной 16 бит и частотой дискретизации 44,1 кГц, источник

В своё время MP3 совершил революцию в распространении музыки. Больше не нужно было покупать дорогие компакт-диски. Достаточно поставить на ночь загрузку из «Напстера» — и к утру у тебя несколько файлов MP3, которые можно слушать совершенно бесплатно! Любые исполнители и альбомы. Это было невероятно.

Но сейчас времена изменились. Файлы скачиваются за секунды, а место на диске измеряется терабайтами. Нет смысла подвергать музыку калечащему сжатию с потерей информации. Можно спокойно скачивать и хранить её в lossless-форматах, причём со значительным сжатием.

Есть ряд lossless-кодеков, которые эффективнее .FLAC по степени сжатия.

Читать дальше →

+52

AKTIV_CONSULTING 28 апр в 08:54

Штрафы за утечку ПДн, от которых срочно надо защититься

Средний

6 мин

2K

Блог компании «Актив»Информационная безопасность * Хранение данных * IT-стандарты *

Обзор

Всем привет! Меня зовут Анастасия Калиничева, я являюсь специалистом по информационной безопасности и ярым любителем поискать смысл в законодательстве о персональных данных (ПДн). Про оборотные штрафы написано уже много материалов, но в процессе анализа поправок невозможно обойтись без структурированного «разложить все по полочкам» и, конечно же, личного мнения о нововведениях. Делюсь с вами аналитикой на тему ужесточения ответственности за правонарушения в сфере законодательства РФ о ПДн.

Читать далее

+8

Cloud4Y 28 апр в 08:53

Cloud4Y строит свой ЦОД. История третья

Простой

6 мин

1.7K

Блог компании Cloud4YОблачные сервисы * Хранение данных * IT-компанииIT-инфраструктура *

Привет!

Продолжаем рассказывать о строительстве дата-центров Cloud4Y (часть 1, часть 2). В прошлый раз мы подняли тему КЦОД — контейнерных дата-центров, которые первыми у нас примут рабочую нагрузку. У вас возникли вопросы, поэтому сегодня расскажем, что это такое, как выглядит и почему мы используем КЦОД вместе с традиционным зданием дата-центра.

Читать далее

+10

Kazurov33 28 апр в 08:16

Не файлы, а люди: Почему Knowledge Management начинается с кофе-брейков

Простой

3 мин

1.8K

Проектирование и рефакторинг * Анализ и проектирование систем * Хранение данных * Growth Hacking * Контент и копирайтинг *

FAQ

Представьте: в компании работает Алексей — senior-разработчик, который за пять лет стал незаменимым. Он знает каждый уголок legacy-кода, помнит, почему десять лет назад выбрали именно эту базу данных, и умеет чинить критические баги за минуты. Но Алексей увольняется. Руководство в панике: как передать его опыт? Проводят митинги, заставляют его записать всё в Confluence, а через месяц новый разработчик смотрит на эти документы и не понимает ни строчки. Знания Алексея ушли вместе с ним, а компания теряет клиентов из-за растущих багов.

Читать далее

+9

aleksluov 28 апр в 05:58

Единый механизм указания значений по умолчанию для StorageClass: централизованный подход Deckhouse

Простой

4 мин

1.2K

Блог компании ФлантХранение данных * Kubernetes * DevOps * Системное администрирование *

В Kubernetes важно правильно настроить StorageClass, чтобы эффективно использовать место для хранения данных приложений. Выбирать StorageClass по умолчанию можно вручную, но такой способ часто приводит к ошибкам и усложняет работу. В статье расскажем, почему ручной способ — не самый удобный, и покажем подход, который реализовали в Deckhouse. Он помогает проще и надёжнее управлять хранением данных.

Читать далее

+18

1 2 ...

14

15 16 ...