Все потоки

Хранение данных *

Что имеем, то храним

121,03

Рейтинг

СтатьиПостыНовостиАвторыКомпании

lilyerma 12 часов назад

FinOps в S3: Как эффективно управлять стоимостью хранения

Средний

8 мин

4.2K

Блог компании ИнферитФинансы в ITОблачные сервисы * Хранение данных *

Туториал

Каждый год объем данных в мире растет на 24.4%. По прогнозам IDC, в 2025 году человечество должно было сгенерировать 175 зеттабайт данных. Исследование показывает, что значительный рост хранения данных за последние годы приходится на публичные облака.

В облаках стандартом для хранения этих массивов стал S3 (Simple Storage Service). Он подкупает своей простотой и дешевизной на старте. Но в этом и кроется ловушка: как только объем данных переваливает за терабайты, а количество запросов — за миллионы, счета начинают «кусаться».

Разберем на примере Яндекс Облака, какие рычаги управления стоимостью (FinOps) у нас есть и как навести порядок в бакетах, пока они не съели ваш бюджет.

Читать далее

+6

ph_piter 14 часов назад

Книга: «Apache Kafka в действии. От базовых концепций до продакшена»

2 мин

3.5K

Блог компании Издательский дом «Питер»Профессиональная литература * Apache * Хранение данных *

Привет, Хаброжители! Apache Kafka — это эталонная платформа для аналитики в реальном времени, передачи событий и потоковой обработки. Выступая в качестве центрального узла для распределенных данных, Kafka обеспечивает беспрепятственный обмен между продюсерами и потребителями по модели «издатель — подписчик». Kafka легко обрабатывает миллионы событий в секунду, а его надежная архитектура гарантирует высокую отказоустойчивость и масштабируемость.

Читать далее

+4

opensophy вчера в 05:10

mTLS: руководство — от теории к практике с управлением сертификатами и защиты сервисов

Простой

11 мин

6.1K

Информационная безопасность * Хранение данных * Системное администрирование * Управление проектами * Серверное администрирование *

Туториал

Если вы когда-либо выставляли сервис в интернет и смотрели на логи — вы знаете, что происходит в первые минуты. Сканеры, боты, перебор паролей. Firewall помогает, но не всегда. VPN — хорошо, но не всегда удобно и сами протоколы в России к примеру хорошо работают. А что если сервер будет просто отказывать в соединении всем, у кого нет нужного криптографического сертификата — ещё до того, как они увидят страницу логина? Это и есть mTLS.

В статье разберём: что такое mTLS и как работает рукопожатие, как это связано с Zero Trust, от каких атак защищает и где принципиально бессилен, какие риски несёт сама PKI-инфраструктура и где чаще всего ошибаются при реализации. В конце — практика: как мы в Opensophy сделали mtls.sh, bash-скрипт для управления mTLS-сертификатами под Traefik, и почему архитектура «промежуточный CA на каждого клиента» позволяет мгновенно отзывать доступ без CRL и OCSP в Traefik.

Статья будет полезна всем, кто хочет защитить свои сервисы — будь то домашняя лаборатория, панели управления вроде Proxmox или Portainer/Dokploy, внутренние API или любой сервис, который не должен быть доступен всем подряд. Если коротко: если вы выставляете что-то в интернет и не хотите, чтобы туда мог зайти кто угодно — mTLS для этого и существует.

+9

Ruslan_Nuriev 20 апр в 11:57

Усовершенствованная электронная подпись: как сохранить юридическую значимость сейчас и через 50 лет

Простой

5 мин

5.8K

Блог компании DirectumIT-инфраструктура * Хранение данных * Софт

FAQ

Привет, Хабр! Меня зовут Руслан Нуриев, я методолог-аналитик компании Directum, спикер и организатор обучающих мероприятий по цифровизации бизнеса и переходу на КЭДО. За 5 лет работы с продуктом Directum HR Pro я заметил парадоксальную вещь: компании тратят ресурсы на перевод кадровых документов в цифру, но часто забывают об их легитимности в будущем.

Можно внедрить самую крутую HR-платформу или систему для КЭДО, но часть выгоды будет упущена, если через 20 лет электронный приказ о приеме на работу превратится в тыкву. Поэтому сегодня обсудим, как сделать так, чтобы юридическая значимость электронной подписи сохранялась десятилетиями.

Читать далее

+8

Rapeed 19 апр в 16:50

Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков

Средний

6 мин

8.7K

Big Data * IT-инфраструктура * Визуализация данных * Хранение данных *

Мнение

Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения.

Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?

Читать далее

+5

Systeme_Electric 17 апр в 11:52

ИБП для промышленности: на что обратить внимание при выборе и в чем их отличия от ИБП для ЦОД?

5 мин

4.3K

Блог компании Systeme ElectricIT-инфраструктура * Хранение данных *

Обзор

Промышленные трехфазные источники бесперебойного питания (ИБП) — это не просто «усиленная версия» решений для серверных или дата-центров. Это отдельный класс оборудования, спроектированный под специфические условия эксплуатации: агрессивные среды, нестабильные сети, высокие пусковые токи. Ошибка в выборе здесь может стоить не только издержек, связанных с простоем, но и повреждения оборудования или нарушения производственного процесса, что особенно критично для непрерывных процессов, например, переработки сырья.

В этой статье разберем, чем промышленные трехфазные ИБП отличаются от решений для ЦОД, какие требования к ним предъявляются, и отдельно остановимся на важных технических особенностях. В завершение кратко рассмотрим пример решения — промышленные ИБП Uniprom Industrial от Systeme Electric.

Читать далее

+3

Cloud4Y 17 апр в 09:47

Квантовая криптография: принципы, протоколы, сети

12 мин

5.2K

Блог компании Cloud4YИнформационная безопасность * IT-инфраструктура * Облачные сервисы * Хранение данных *

Ваши пароли, TLS, блокчейны — всё под ударом. Единственный щит, который не взломать даже квантовым алгоритмом, спрятан внутри фотона. Добро пожаловать в мир, где законы физики важнее вычислительной мощности.

Читать далее

+1

Sergey_petrich 16 апр в 12:54

От формального качества к реальной пользе: как избежать потери доверия к данным и снижения их бизнес-ценности

8 мин

5.3K

Блог компании VK TechБлог компании VKХранение данных * IT-инфраструктура * Big Data *

Внедрение современных инструментов Data Governance (управления данными) часто воспринимается как финальная точка в построении культуры работы с данными. Компании инвестируют в Data Quality-проверки (качества данных), создают каталоги данных и выстраивают красивые дашборды, которые сигнализируют о полном порядке. Однако на практике бизнес часто обнаруживает, что за фасадом «зеленых галочек» скрывается хаос: отчеты не сходятся, ключевые метрики вызывают вопросы, а доверие к аналитике падает. Этот разрыв между формальным качеством данных и их реальной ценностью для бизнеса приводит к финансовым потерям и неверным управленческим решениям.

Меня зовут Сергей Петриченко. Я продуктовый менеджер VK Data Platform. В этой статье я покажу типовой путь компании и расскажу, как сделать работу с данными не самоцелью для ИТ, а инструментом, который полезен для бизнеса.

Читать далее

+24

kmoseenk 16 апр в 11:20

Укрощение «диких» CSV: продвинутые техники DuckDB для инженеров данных

Средний

11 мин

5K

Блог компании OTUSБазы данных * Хранение данных * Data Engineering *

Туториал

Перевод

CSV-файлы редко бывают такими простыми, какими кажутся на первый взгляд. За внешней структурой часто скрываются проблемы с типами, разделителями, схемами и «сломанными» строками, из-за которых загрузка данных превращается в цепочку костылей и ручной предобработки. В этой статье — практический разбор того, как DuckDB позволяет диагностировать и обрабатывать такие случаи прямо в SQL: от понимания того, как система интерпретирует файл, до устойчивой загрузки и работы с неконсистентными данными.

Разобраться в CSV

+11

breakmirrors 15 апр в 09:02

Сравнительный обзор GDPR, 152-ФЗ и PIPL

10 мин

7.8K

Блог компании БастионИнформационная безопасность * Законодательство в ITХранение данных * IT-компании

Аналитика

Вы хотите приватности и спокойной жизни, бизнес стремится зарабатывать на ваших данных и таргетированной рекламе, а государству подавай тотальный контроль для поддержания порядка в своем понимании. Этот конфликт интересов, как и «задача трех тел», не имеет универсального стабильного решения.

Сегодня мы рассмотрим три подхода к защите персональных данных: европейский GDPR, российский 152-ФЗ и китайский PIPL. На первый взгляд, все три закона говорят об одном и том же, но дьявол кроется в деталях, которые определяют всё: от архитектуры приложения до размера потенциального штрафа.

Читать далее

+19

devtinden 14 апр в 08:00

Платформа данных на минималках. Часть 1: проблемы Data Lake и роль Iceberg

11 мин

8.9K

Блог компании SelectelIT-инфраструктура * Apache * IT-компанииХранение данных *

Представим ситуацию: у нас есть сервисы, которые пишут логи событий и сообщения из очередей (Kafka, RabbitMQ) в формате Avro для гарантии схемы и потоковой доставки. В это же время отдел машинного обучения работает с датасетами в Parquet — ребята ценят столбцовое хранение и производительность на скалярных чтениях. Соседняя команда фиксирует фактовые таблицы в ORC, поскольку этот формат подходит для тяжелых аналитических агрегаций.

Пока объемы данных измерялись гигабайтами, такой «зоопарк форматов» был терпим: каждый отдел использовал свой инструмент, а данные копировались между ними через ETL-конвейеры. Но с ростом до терабайтов и выше эта архитектура начинает ломаться: запросы становятся медленными, стоимость хранения и вычислений стремительно растет, а главное — теряется единый источник истины. Теперь одна и та же бизнес-сущность существует в трех разных форматах, схемах и состояниях.

В этот момент возникает потребность не в очередном хранилище, а в табличной абстракции поверх существующих форматов. Такой слой должен обеспечивать ACID-транзакционность, централизованное управление схемой и единый каталог для всех потребителей — от потоковой инженерии до машинного обучения и BI. Именно так и приходят к Apache Iceberg и к идее построения собственной платформы данных.

Читать далее

+46

E-Chayka 13 апр в 12:32

Топ-8 систем для хранения электронных документов

6 мин

5K

Блог компании DirectumХранение данных * IT-инфраструктура * ECM/СЭД *

Обзор

Recovery Mode

Бизнес переводит процессы в безбумажный вид: договоры согласуют в системах документооборота, бухгалтерия работает в учетных системах, кадровые документы создаются в решениях для КЭДО, организационно-распорядительная документация ведется в цифровом виде, всё подписывается электронной подписью. Казалось бы, вопрос с переходом в цифру решен.

Так ли это?

Читать далее

+13

ryzhikad 13 апр в 11:52

Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 2: Modus ETL & Modus BI

15 мин

4.9K

Блог компании ИТ-интегратор Белый кодВизуализация данных * Хранение данных * Анализ и проектирование систем *

Обзор

Меня зовут Андрей Рыжик, я product owner BI-направления компании «Белый код». Это вторая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем связку от компании Modus: Modus ETL и Modus BI.

Читать далее

0

FaryaRos 13 апр в 09:20

DuckDB как микро-хранилище: заменяем «ETL + Postgres» одним файлом, одним движком

Простой

5 мин

5.5K

Data Engineering * Базы данных * Хранение данных * PostgreSQL *

Кейс

Перевод

Частая история: данные приложения попадают куда-то, джоб их чистит, Postgres хранит их «для аналитики» и вдруг вы обслуживаете ETL-пайплайн и базу данных, которая никогда не была рада OLAP-нагрузке. По моему мнению, для большинства команд это лишние сложности.

Главная сила DuckDB не в том, что он быстрый (хотя это правда). Она в том, что он может работать как микро-хранилище: один .duckdb-файл, который ведёт себя как аккуратный аналитический движок, находится рядом с данными и обеспечивает дашборды, аудиты и еженедельные отчёты без платформенного оверхеда.

Читать далее

+2

Apokalepsis 12 апр в 22:03

NAS, который стал сервером: почему я отказался от DIY и купил Minisforum

Простой

4 мин

21K

ГаджетыХранение данных * Компьютерное железо

Кейс

Я долго хотел собрать NAS сам, но в итоге выбрал готовое решение. Рассказываю, где ломается идея «сделаю дешевле», почему роутер с Docker — это не сервер, и как я пришёл к устройству, которое закрывает сразу всё: хранение, сервисы и эксперименты.

Читать далее

+10

koteishestvo 12 апр в 08:00

Как инженер подключил дисковод от флоппи к Tesla, а электрокар его распознал

4 мин

20K

Блог компании SelectelСтарое железоКомпьютерное железоАвтомобильные гаджетыХранение данных *

В эпоху, когда данные летают по облакам со скоростью света, а накопители вмещают терабайты, порой случаются истории, которые возвращают нас в 90-е. Старые устройства, давно списанные в утиль, неожиданно оживают в окружении самых современных гаджетов. Такие моменты напоминают, насколько глубоко в коде и железе современных машин прячется наследие прошлых десятилетий.

Но оставим ностальгию в стороне, ближе к сути. Так вот, один гик решил проверить границы совместимости ПО Tesla и старого железа — флоппи-дисковода. И все получилось. Древний накопитель нашел общий язык с электрокаром без каких-либо специальных драйверов или хаков. Давайте разбираться.

Читать далее

+32

SpaceVM 10 апр в 12:47

Как работает система резервного копирования в SpaceVM

Средний

10 мин

4.3K

Блог компании SpaceВиртуализация * Хранение данных * IT-инфраструктура * Резервное копирование *

Обзор

В среде виртуализации цена ошибки выше, чем в физической инфраструктуре: проблема редко затрагивает одну машину — чаще это сразу десятки ВМ и сервисы, на которых завязана половина инфраструктуры. Администратор удалил не тот диск, хранилище повело себя нестабильно, данные оказались повреждены. В такие моменты важен не сам факт наличия резервного копирования, а то, насколько быстро и предсказуемо можно восстановиться.

В SpaceVM система резервного копирования (СРК) изначально проектировалась не как отдельный внешний инструмент, а как часть платформы. Это важно: все сценарии — от быстрого отката до восстановления на другом узле — встроены в общий цикл работы с виртуальными машинами и не требуют отдельной инфраструктуры.

Разберём, как работает СРК в SpaceVM на практике: от моментальных снимков до полноценных резервных копий и массовых сценариев восстановления — то есть всех стандартных задач.

Читать далее

+4

runity 10 апр в 08:01

Shared или выделенный CPU: гайд о том, как не ошибиться с выбором конфигурации сервера

Простой

4 мин

5.3K

Блог компании РунитиОблачные сервисы * Хранение данных * Информационная безопасность *

Туториал

Привет, Хабр! На связи Егор Сапун, руководитель направления сертификации инфраструктуры Рег.облака.

Shared CPU и выделенный — не вопрос «лучше или хуже». Это два разных инструмента, и ошибка чаще всего одна: берут не тот под задачу. В этой статье попытаемся разобраться, какая конфигурация сервера и для каких задач подходит лучше всего.

Читать далее

+5

dirty_valera 9 апр в 09:26

Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)

21 мин

5.4K

Rust * Машинное обучение * Высоконагруженные системы * Облачные вычисления * Хранение данных *

Из песочницы

Volga — open-source движок обработки данных, созданный как альтернатива Apache Spark и Apache Flink и ориентированный на требования real-time AI/ML систем: консистентное вычисление фичей между online и offline режимами, point-in-time корректные агрегации, длинные скользящие окна, а также ML-ориентированные функции, такие как top- и категориальные агрегации.

В статье рассматриваются мотивация и история разработки, архитектура системы и её ключевые компоненты, а также проводится сравнение с ML-ориентированными решениями (Chronon, OpenMLDB) и универсальными стриминговыми движками (Apache Flink, Apache Spark, Arroyo).

Читать далее

+7

Diamant_storage 9 апр в 09:16

Сценарии «Судного дня»: чему реальные катастрофы научили архитекторов резервного копирования

Простой

6 мин

5.6K

Информационная безопасность * Хранение данных * Распределённые системы * Резервное копирование * IT-инфраструктура *

Мнение

В ИТ любят слово «отказоустойчивость». Оно звучит инженерно и успокаивающе. Кластеры, зеркала, репликации — всё это создаёт ощущение контролируемости. Но последние десять лет показали неприятную вещь: большинство катастроф происходят не потому, что что-то сломалось, а потому что инфраструктуру целенаправленно уничтожили. Бла-бла-бла.

Читать далее

+2

1

2 3 ...