Обновить
256K+

Хранение данных *

Что имеем, то храним

121,03
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

FinOps в S3: Как эффективно управлять стоимостью хранения

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели4.2K

Каждый год объем данных в мире растет на 24.4%. По прогнозам IDC, в 2025 году человечество должно было сгенерировать 175 зеттабайт данных. Исследование показывает, что значительный рост хранения данных за последние годы приходится на публичные облака.

В облаках стандартом для хранения этих массивов стал S3 (Simple Storage Service). Он подкупает своей простотой и дешевизной на старте. Но в этом и кроется ловушка: как только объем данных переваливает за терабайты, а количество запросов — за миллионы, счета начинают «кусаться».

Разберем на примере Яндекс Облака, какие рычаги управления стоимостью (FinOps) у нас есть и как навести порядок в бакетах, пока они не съели ваш бюджет. 

Читать далее

Новости

Книга: «Apache Kafka в действии. От базовых концепций до продакшена»

Время на прочтение2 мин
Охват и читатели3.5K

Привет, Хаброжители! Apache Kafka — это эталонная платформа для аналитики в реальном времени, передачи событий и потоковой обработки. Выступая в качестве центрального узла для распределенных данных, Kafka обеспечивает беспрепятственный обмен между продюсерами и потребителями по модели «издатель — подписчик». Kafka легко обрабатывает миллионы событий в секунду, а его надежная архитектура гарантирует высокую отказоустойчивость и масштабируемость.

Читать далее

mTLS: руководство — от теории к практике с управлением сертификатами и защиты сервисов

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели6.1K

Если вы когда-либо выставляли сервис в интернет и смотрели на логи — вы знаете, что происходит в первые минуты. Сканеры, боты, перебор паролей. Firewall помогает, но не всегда. VPN — хорошо, но не всегда удобно и сами протоколы в России к примеру хорошо работают. А что если сервер будет просто отказывать в соединении всем, у кого нет нужного криптографического сертификата — ещё до того, как они увидят страницу логина? Это и есть mTLS.

В статье разберём: что такое mTLS и как работает рукопожатие, как это связано с Zero Trust, от каких атак защищает и где принципиально бессилен, какие риски несёт сама PKI-инфраструктура и где чаще всего ошибаются при реализации. В конце — практика: как мы в Opensophy сделали mtls.sh, bash-скрипт для управления mTLS-сертификатами под Traefik, и почему архитектура «промежуточный CA на каждого клиента» позволяет мгновенно отзывать доступ без CRL и OCSP в Traefik.

Статья будет полезна всем, кто хочет защитить свои сервисы — будь то домашняя лаборатория, панели управления вроде Proxmox или Portainer/Dokploy, внутренние API или любой сервис, который не должен быть доступен всем подряд. Если коротко: если вы выставляете что-то в интернет и не хотите, чтобы туда мог зайти кто угодно — mTLS для этого и существует.

Читать

Усовершенствованная электронная подпись: как сохранить юридическую значимость сейчас и через 50 лет

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели5.8K

Привет, Хабр! Меня зовут Руслан Нуриев, я методолог-аналитик компании Directum, спикер и организатор обучающих мероприятий по цифровизации бизнеса и переходу на КЭДО. За 5 лет работы с продуктом Directum HR Pro я заметил парадоксальную вещь: компании тратят ресурсы на перевод кадровых документов в цифру, но часто забывают об их легитимности в будущем.

Можно внедрить самую крутую HR-платформу или систему для КЭДО, но часть выгоды будет упущена, если через 20 лет электронный приказ о приеме на работу превратится в тыкву. Поэтому сегодня обсудим, как сделать так, чтобы юридическая значимость электронной подписи сохранялась десятилетиями.

Читать далее

Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8.7K

Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения.

Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?

Читать далее

ИБП для промышленности: на что обратить внимание при выборе и в чем их отличия от ИБП для ЦОД?

Время на прочтение5 мин
Охват и читатели4.3K

Промышленные трехфазные источники бесперебойного питания (ИБП) — это не просто «усиленная версия» решений для серверных или дата-центров. Это отдельный класс оборудования, спроектированный под специфические условия эксплуатации: агрессивные среды, нестабильные сети, высокие пусковые токи. Ошибка в выборе здесь может стоить не только издержек, связанных с простоем, но и повреждения оборудования или нарушения производственного процесса, что особенно критично для непрерывных процессов, например, переработки сырья.

В этой статье разберем, чем промышленные трехфазные ИБП отличаются от решений для ЦОД, какие требования к ним предъявляются, и отдельно остановимся на важных технических особенностях. В завершение кратко рассмотрим пример решения — промышленные ИБП Uniprom Industrial от Systeme Electric.

Читать далее

Квантовая криптография: принципы, протоколы, сети

Время на прочтение12 мин
Охват и читатели5.2K

Ваши пароли, TLS, блокчейны — всё под ударом. Единственный щит, который не взломать даже квантовым алгоритмом, спрятан внутри фотона. Добро пожаловать в мир, где законы физики важнее вычислительной мощности.

Читать далее

От формального качества к реальной пользе: как избежать потери доверия к данным и снижения их бизнес-ценности

Время на прочтение8 мин
Охват и читатели5.3K

Внедрение современных инструментов Data Governance (управления данными) часто воспринимается как финальная точка в построении культуры работы с данными. Компании инвестируют в Data Quality-проверки (качества данных), создают каталоги данных и выстраивают красивые дашборды, которые сигнализируют о полном порядке. Однако на практике бизнес часто обнаруживает, что за фасадом «зеленых галочек» скрывается хаос: отчеты не сходятся, ключевые метрики вызывают вопросы, а доверие к аналитике падает. Этот разрыв между формальным качеством данных и их реальной ценностью для бизнеса приводит к финансовым потерям и неверным управленческим решениям. 

Меня зовут Сергей Петриченко. Я продуктовый менеджер VK Data Platform. В этой статье я покажу типовой путь компании и расскажу, как сделать работу с данными не самоцелью для ИТ, а инструментом, который полезен для бизнеса.

Читать далее

Укрощение «диких» CSV: продвинутые техники DuckDB для инженеров данных

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели5K

CSV-файлы редко бывают такими простыми, какими кажутся на первый взгляд. За внешней структурой часто скрываются проблемы с типами, разделителями, схемами и «сломанными» строками, из-за которых загрузка данных превращается в цепочку костылей и ручной предобработки. В этой статье — практический разбор того, как DuckDB позволяет диагностировать и обрабатывать такие случаи прямо в SQL: от понимания того, как система интерпретирует файл, до устойчивой загрузки и работы с неконсистентными данными.

Разобраться в CSV

Сравнительный обзор GDPR, 152-ФЗ и PIPL

Время на прочтение10 мин
Охват и читатели7.8K

Вы хотите приватности и спокойной жизни, бизнес стремится зарабатывать на ваших данных и таргетированной рекламе, а государству подавай тотальный контроль для поддержания порядка в своем понимании. Этот конфликт интересов, как и «задача трех тел», не имеет универсального стабильного решения.

Сегодня мы рассмотрим три подхода к защите персональных данных: европейский GDPR, российский 152-ФЗ и китайский PIPL. На первый взгляд, все три закона говорят об одном и том же, но дьявол кроется в деталях, которые определяют всё: от архитектуры приложения до размера потенциального штрафа.

Читать далее

Платформа данных на минималках. Часть 1: проблемы Data Lake и роль Iceberg

Время на прочтение11 мин
Охват и читатели8.9K

Представим ситуацию: у нас есть сервисы, которые пишут логи событий и сообщения из очередей (Kafka, RabbitMQ) в формате Avro для гарантии схемы и потоковой доставки. В это же время отдел машинного обучения работает с датасетами в Parquet — ребята ценят столбцовое хранение и производительность на скалярных чтениях.  Соседняя команда фиксирует фактовые таблицы в ORC, поскольку этот формат подходит для тяжелых аналитических агрегаций. 

Пока объемы данных измерялись гигабайтами, такой «зоопарк форматов» был терпим: каждый отдел использовал свой инструмент, а данные копировались между ними через ETL-конвейеры. Но с ростом до терабайтов и выше эта архитектура начинает ломаться: запросы становятся медленными, стоимость хранения и вычислений стремительно растет, а главное — теряется единый источник истины. Теперь одна и та же бизнес-сущность существует в трех разных форматах, схемах и состояниях. 

В этот момент возникает потребность не в очередном хранилище, а в табличной абстракции поверх существующих форматов. Такой слой должен обеспечивать ACID-транзакционность, централизованное управление схемой и единый каталог для всех потребителей — от потоковой инженерии до машинного обучения и BI. Именно так и приходят к Apache Iceberg и к идее построения собственной платформы данных.

Читать далее

Топ-8 систем для хранения электронных документов

Время на прочтение6 мин
Охват и читатели5K

Бизнес переводит процессы в безбумажный вид: договоры согласуют в системах документооборота, бухгалтерия работает в учетных системах, кадровые документы создаются в решениях для КЭДО, организационно-распорядительная документация ведется в цифровом виде, всё подписывается электронной подписью. Казалось бы, вопрос с переходом в цифру решен.

Так ли это?

Читать далее

Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 2: Modus ETL & Modus BI

Время на прочтение15 мин
Охват и читатели4.9K

Меня зовут Андрей Рыжик, я product owner BI-направления компании «Белый код». Это вторая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем связку от компании Modus: Modus ETL и Modus BI.

Читать далее

Ближайшие события

DuckDB как микро-хранилище: заменяем «ETL + Postgres» одним файлом, одним движком

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели5.5K

Частая история: данные приложения попадают куда-то, джоб их чистит, Postgres хранит их «для аналитики» и вдруг вы обслуживаете ETL-пайплайн и базу данных, которая никогда не была рада OLAP-нагрузке. По моему мнению, для большинства команд это лишние сложности.

Главная сила DuckDB не в том, что он быстрый (хотя это правда). Она в том, что он может работать как микро-хранилище: один .duckdb-файл, который ведёт себя как аккуратный аналитический движок, находится рядом с данными и обеспечивает дашборды, аудиты и еженедельные отчёты без платформенного оверхеда.

Читать далее

NAS, который стал сервером: почему я отказался от DIY и купил Minisforum

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели21K

Я долго хотел собрать NAS сам, но в итоге выбрал готовое решение. Рассказываю, где ломается идея «сделаю дешевле», почему роутер с Docker — это не сервер, и как я пришёл к устройству, которое закрывает сразу всё: хранение, сервисы и эксперименты.

Читать далее

Как инженер подключил дисковод от флоппи к Tesla, а электрокар его распознал

Время на прочтение4 мин
Охват и читатели20K

В эпоху, когда данные летают по облакам со скоростью света, а накопители вмещают терабайты, порой случаются истории, которые возвращают нас в 90-е. Старые устройства, давно списанные в утиль, неожиданно оживают в окружении самых современных гаджетов. Такие моменты напоминают, насколько глубоко в коде и железе современных машин прячется наследие прошлых десятилетий.

Но оставим ностальгию в стороне, ближе к сути. Так вот, один гик решил проверить границы совместимости ПО Tesla и старого железа — флоппи-дисковода. И все получилось. Древний накопитель нашел общий язык с электрокаром без каких-либо специальных драйверов или хаков. Давайте разбираться.

Читать далее

Как работает система резервного копирования в SpaceVM

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели4.3K

В среде виртуализации цена ошибки выше, чем в физической инфраструктуре: проблема редко затрагивает одну машину — чаще это сразу десятки ВМ и сервисы, на которых завязана половина инфраструктуры. Администратор удалил не тот диск, хранилище повело себя нестабильно, данные оказались повреждены. В такие моменты важен не сам факт наличия резервного копирования, а то, насколько быстро и предсказуемо можно восстановиться.

В SpaceVM система резервного копирования (СРК) изначально проектировалась не как отдельный внешний инструмент, а как часть платформы. Это важно: все сценарии — от быстрого отката до восстановления на другом узле — встроены в общий цикл работы с виртуальными машинами и не требуют отдельной инфраструктуры.

Разберём, как работает СРК в SpaceVM на практике: от моментальных снимков до полноценных резервных копий и массовых сценариев восстановления — то есть всех стандартных задач.

Читать далее

Shared или выделенный CPU: гайд о том, как не ошибиться с выбором конфигурации сервера

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5.3K

Привет, Хабр! На связи Егор Сапун, руководитель направления сертификации инфраструктуры Рег.облака. 

Shared CPU и выделенный — не вопрос «лучше или хуже». Это два разных инструмента, и ошибка чаще всего одна: берут не тот под задачу. В этой статье попытаемся разобраться, какая конфигурация сервера и для каких задач подходит лучше всего.

Читать далее

Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)

Время на прочтение21 мин
Охват и читатели5.4K

Volga — open-source движок обработки данных, созданный как альтернатива Apache Spark и Apache Flink и ориентированный на требования real-time AI/ML систем: консистентное вычисление фичей между online и offline режимами, point-in-time корректные агрегации, длинные скользящие окна, а также ML-ориентированные функции, такие как top- и категориальные агрегации.

В статье рассматриваются мотивация и история разработки, архитектура системы и её ключевые компоненты, а также проводится сравнение с ML-ориентированными решениями (Chronon, OpenMLDB) и универсальными стриминговыми движками (Apache Flink, Apache Spark, Arroyo).

Читать далее

Сценарии «Судного дня»: чему реальные катастрофы научили архитекторов резервного копирования

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели5.6K

В ИТ любят слово «отказоустойчивость». Оно звучит инженерно и успокаивающе. Кластеры, зеркала, репликации — всё это создаёт ощущение контролируемости. Но последние десять лет показали неприятную вещь: большинство катастроф происходят не потому, что что-то сломалось, а потому что инфраструктуру целенаправленно уничтожили. Бла-бла-бла.

Читать далее
1
23 ...