Хранение данных *

Что имеем, то храним

93,23

Рейтинг

СтатьиПостыНовостиАвторыКомпании

shatzibitten 12 часов назад

Iceberg без Spark для каждой мелочи: UPDATE, DELETE и MERGE INTO из одного SQL-движка в Apache Doris 4.1

Средний

14 мин

8.9K

Базы данных * Data Engineering * Big Data * Apache * Хранение данных *

Обзор

Перевод

Apache Doris 4.1 добавляет UPDATE, DELETE и MERGE INTO на Iceberg-таблицы прямо из SQL-клиента — без отдельного Spark job. Iceberg V3 Deletion Vectors и Row Lineage делают этот DML архитектурно здоровым: нет линейной деградации от delete files, нет false positives в CDC после compaction. Перевод и адаптация статьи Mingyu Chen (CC BY 4.0) с бенчмарками, SQL-примерами и Quick Start.

Dante4 14 часов назад

Производительность софт NVMe рейдов на основе mdadm, LVM и ZFS при использовании iSER и NVMe-oF (100G version) — Part 2

Средний

21 мин

7.2K

Open source * Хранение данных *

Обзор

Продолжение первой части, смысл данной статьи сохраняется, а именно показать максимальную производительность, когда вопрос сохранности данных решается репликами или бэкапами.

Цель - протестировать производительность трёх систем объединения физических устройств в одно логическое систем при использовании iSER и NVMe-oF. Так как статья получилась объёмная, она поделена на 2 части. В этой части - тесты с использованием HCIbench и iSER\NVMe-oF

Dante4 14 часов назад

Производительность софт NVMe рейдов на основе mdadm, LVM и ZFS при использовании iSER и NVMe-oF (100G version) — Part 1

Средний

13 мин

Open source * Хранение данных *

Обзор

Смысл данной статьи показать максимальную производительность, когда вопрос сохранности данных решается репликами или бэкапами.

Цель - протестировать производительность трёх систем объединения физических устройств в одно логическое систем при использовании iSER и NVMe-oF. Так как статья получилась объёмная, она поделена на 2 части, в первой идут тесты на уровне локального устройства + вступление. Во второй уже тесты с использованием HCIbench и iSER\NVMe-oF

agatyev 1 мая в 12:15

Простой мониторинг Synology NAS с Grafana и Prometheus

Простой

2 мин

11K

DevOps * GitHub * IT-инфраструктура * Хранение данных *

Кейс

Из песочницы

Всем привет! Храню 7 терабайт фото и видео у себя дома на Synology DS224+ с DSM 7.3+

Это сетевое хранилище поддерживает Docker. Я дополнительно установил плашку памяти и теперь у меня 18 ГБ ОЗУ.

Но суть в том, что ночами я слышу "булькание" и "шуршание" дисков, кстати диски красные, прямо созданные под сетевые хранилища: WD120EFBX-68B0EN0 две штуки по 12 ТБ с зеркалированием.

И у меня возник такой страх, а что если мои файлы что-то форматирует, а я просто лежу и не знаю об этом. И я начал поиски репозиториев на GitHub, посмотрел как делают другие, мне как обычно ничего не подошло и я решил создать свой проект, который полностью меня устраивает.

Выложил проект в репозиторий

+10

runity 30 апр в 09:03

Миграция в облако без пересборки: как пользовательские образы решают проблему переезда

Простой

8 мин

5.6K

Блог компании РунитиОблачные сервисы * Разработка публичных облаков * СофтХранение данных *

Обзор

Привет, Хабр! На связи Даша Косова, я продакт менеджер Рег.облака. Представим знакомую многим ситуацию. У компании есть сервер. Он работает уже несколько лет. На нем крутятся базы данных, backend-сервисы, cron-скрипты, система мониторинга. Всё настроено, всё работает, и трогать это никто особенно не хочет.

Инфраструктуру собирали постепенно: что-то добавили год назад, что-то настроили два года назад, какие-то сервисы поднимали «на скорую руку». Со временем все это превратилось в полноценную рабочую систему. И в какой-то момент возникает идея переехать в облако. А что происходит дальше и как ничего не потерять при переезде — в этой статье.

SoftStore 29 апр в 11:43

Русская рулетка дедиков: Собираем RAID 1 + LVM на живой системе без Rescue-режима

Средний

4 мин

7.5K

Системное администрирование * IT-инфраструктура * Linux * Хранение данных * Серверное администрирование *

Туториал

Ситуация до боли знакома каждому, кто регулярно арендует выделенные серверы: вы оплачиваете счет, заходите по SSH и видите, что ОС установлена на /dev/sda, а второй диск просто болтается пустым. Никакого RAID, никакой отказоустойчивости. Умрет первый диск — ваши данные исчезнут. Мы в SoftStore идем по пути полного контроля над процессом. В этой статье разбираем пошаговый протокол: как собрать программный RAID 1 и LVM прямо на живой, работающей операционной системе без использования Rescue-режима и переустановки. В качестве бонуса — практика по управлению квотами, снапшотами и замене дисков в Production.

hystax-team 28 апр в 18:36

Хайстекс Акура 4.5: Свобода миграции без API, нативный бэкап PostgreSQL и защита от шифровальщиков на уровне S3

Простой

7 мин

10K

Блог компании ХайстексВиртуализация * Хранение данных * Информационная безопасность * Системное администрирование *

Обзор

При масштабировании инфраструктуры вчерашние рабочие процессы часто превращаются в архитектурные. Линейный рост затрат на хранение, проблемы консистентности СУБД при восстановлении из снапшотов и зависимость от закрытых API — это реальность, в которой живут многие команды. Ситуация усложняется, когда бэкапы становятся целью для атак, а стандартного контроля доступа оказывается недостаточно. В релизе Хайстекс Акура 4.5 мы собрали инструменты, которые делают инфраструктуру по-настоящему автономной и защищенной. Под катом — подробнее о каждом из них.

Кат

Diamant_storage 28 апр в 12:29

Инсайдер в системе: как аппаратная блокировка перезаписи защищает данные от собственных сотрудников

Простой

8 мин

6.8K

Хранение данных * Терминология ITСерверное администрирование * Информационная безопасность * IT-стандарты *

Мнение

Самая опасная угроза — внутри

В массовом представлении угроз информационной безопасности главным врагом остаётся внешний хакер. Однако многолетняя практика эксплуатации корпоративных ИТ‑систем показывает более неприятную реальность.

ryzhikad 28 апр в 08:34

Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 4: Biplane24

15 мин

5.4K

Блог компании ИТ-интегратор Белый кодВизуализация данных * Хранение данных * Анализ и проектирование систем *

Обзор

Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это четвёртая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом 1,5-2 млн рублей. Сегодня разбираем Biplane24.

zdanevich-vitaly 28 апр в 03:03

Я сделал Телеграм бота для Evernote, о котором немного мечтал годами

Простой

2 мин

12K

Python * Amazon Web Services * Резервное копирование * Хранение данных * DevOps *

Кейс

Прывітаначкі, похоже с одной стороны сегодня программистов нужно меньше чем раньше, с другой стороны — благодаря LLM действительно можно делать задачи на порядок быстрее. Предполагаю, что в ручную этого бота я бы делал месяц, через Codex gpt-5.5 xhigh — часа три.

В Evernote у меня записано много идей. Хорошо бы то, хорошо бы это. И таки некоторый прогресс в их реализации есть. И вот недавно — открываю официальное приложение Evernote на iPhone, а заметки не загружаются. У меня самый дорогой премиум аккаунт. Вот так стало понятно — надо делать.

Про другие неофициальные клиенты:

Я мантейнер Geeknote — неофициальный CLI на Питоне, он внутри моего бота.

NixNote на C++

CliNote на Go — недавно заархивирован — feel free to форкнуть и починить.

И вот теперь я сделал Телеграм бота https://gitlab.com/vitaly‑zdanevich/bot_telegram_evernote

На Питоне — хотя я предпочитаю Go — но Geeknote зависимость на нём, так что для единообразия.

first_trailblazer 28 апр в 00:04

Quest For The Holy Memex: Часть 3 или обзорная

Средний

29 мин

7.9K

Хранение данных * Мозг

Обзор

Quest For The Holy Memex: Часть 3 или обзорная

Mundaneum, Memex, Zettelkasten, Catalyst, Palantir, Maltego

1. Mundaneum Поля Отле

Прежде чем начать самому решать проблему информационных перегрузок, сначала нужно было поискать, пробовал ли ее кто‑то решить на практике за все это время.

Из личного опыта вспоминались только обычные библиотечные указатели по алфавиту, которые мягко говоря проблему не решали от слова совсем. Если проблема давняя, и на нее уже давно обращали внимание, то должно уже было быть хоть какое‑то решение, так почему же мы до сих пор используем только эти примитивные библиотечные указатели? Ладно, есть еще Google, но у него свои ограничения.

У меня не было задачи найти и изучить ВСЕ подходы к организации и работе с большими объемами информации (эта тема потянет на полноценное научное исследование), также я не буду рассматривать сугубо теоретические концепции (как например «Мировой мозг» Герберта Уэллса), остановлюсь только на самых интересных по моему мнению проектах, которые пытались сделать практическую реализацию, хотя бы в виде спецификаций.

и все, все, все...

python_leader 27 апр в 17:37

Как Cursor с Claude Opus снёс продакшен базу данных за 9 секунд

Простой

9 мин

28K

Искусственный интеллектПрограммирование * Информационная безопасность * Хранение данных * DevOps *

Кейс

Перевод

30 часов хронологии того, как агент Cursor, Railway API и индустрия, которая продаёт безопасность быстрее, чем её реализует, положили малый бизнес, обслуживающий прокатные компании по всей стране.

Меня зовут Джер Крейн, я основатель PocketOS. Мы делаем ПО для прокатного бизнеса — в первую очередь для аренды автомобилей: бронирования, платежи, управление клиентами, отслеживание транспортных средств. Некоторые наши клиенты с нами уже больше 5 лет и они буквально не могут работать без нас.

Вчера днём ИИ‑агент на базе Cursor с Claude Opus 4.6 от Anthropic удалил нашу продакшн‑базу данных и все резервные копии на уровне тома одним API‑вызовом к Railway, нашему инфраструктурному провайдеру.

На это ушло 9 секунд.

Затем агент, когда его попросили объяснить произошедшее, написал признание — с перечнем конкретных правил безопасности, которые он нарушил.

+35

105

linabesson 27 апр в 10:52

С чего начинается Родина для ИИ? Мы строим российскую модель искусственного интеллекта без трансформера

Простой

3 мин

7.8K

Python * Анализ и проектирование систем * Хранение данных * Искусственный интеллект

Роадмэп

С чего начинается Родина для искусственного интеллекта? С датасета на русском языке? С гигантских кластеров H100, закупленных по параллельному импорту? С вывески корпорации на фасаде модели, архитектуру которой придумали в Google? Родина начинается с отказа от вероятностей. С собственных чертежей. С опоры на национальную научную школу.

-1

110

kobubu 27 апр в 06:09

Правильная агентская архитектура в 2026 г. Часть 1. Долговременное состояние (durable state): ход, шаг, событие

13 мин

8.4K

Python * Искусственный интеллектМашинное обучение * Хранение данных * Софт

Туториал

Практическое пособие по устройству production‑ready агента.

Поскольку последнее время я плотно занимаюсь разработкой ии‑агента, и, по прогнозам директора, должен скоро все сдать (лол), то я решил описать в первую очередь для себя кое‑какие моменты, которые стоит учесть при разработке агентской системы в 2026 году. Я планирую серию статей на основании своего опыта. Не судите строго, на платных курсах расскажут гораздо лучше. Накидать в комменты приветствуется. Перевод терминологии вольный.

Сейчас мне кажется, что весь софт, который последнее время делается — это один сплошной ии‑агент, который потенциально должен уметь всё на свете. При этом пользователи в 2026 году не готовы ни к какой другой форме отношений с приложениями, кроме как промптинг. Если во время презентации продукта они видят больше одной кнопки «отправить промпт», то сразу заявляют, что им сложно, а у тебя появляется чувство, словно ты им должен заплатить за то, чтобы они осилили твой софт. Ну ладно, мобильные телефоны в итоге ведь превратились в прямоугольники с экранами. Может, и у софта есть «финальная форма» в виде ии‑агента с интерфейсом.

first_trailblazer 24 апр в 21:43

Quest For The Holy Memex: Часть 2 или Вавилонский Синдром

Сложный

22 мин

8.9K

Хранение данных * Мозг

Ретроспектива

Quest For The Holy Memex: Часть 2 или Вавилонский синдром...

Хорошо, у нас есть “имя зверя” - информационные перегрузки, и есть гипотеза, что именно эта штука на самом деле сильно портит мне жизнь (и не только мне), как это проверить и доказать? Как можно вообще “отдебажить” реальность? Мы не можем изолировать эти сценарии, погонять тесты - даже в естественных науках это не всегда возможно, в социальных “искусствах” вообще все очень плохо даже с воспроизводимостью опытов.

Но кое-что мы все же сделать можем...

Mr_Manro 23 апр в 16:37

Как подготовить данные к анализу: очистка и предобработка, без которых всё остальное не имеет смысла

12 мин

12K

Блог компании НетологияХранение данных * Big Data * Data Engineering * Анализ и проектирование систем *

Туториал

Ваши данные врут. Не потому, что кто-то хотел вас обмануть, а потому, что вы им это позволили.

Всё выглядит правильно: модель обучилась, метрики зелёные, дашборд аккуратный. А потом бизнес-решение, принятое на основе этих данных, приводит не туда. В этот момент начинают проверять алгоритм, гипотезу или эксперимент. Но в большинстве случаев проблема была раньше — в данных, которые никто толком не подготовил.

Даже аккуратный дашборд может скрывать проблемы в данных, если этап подготовки был сделан формально.

Пройти путь до данных, которым доверяем →

ryzhikad 23 апр в 12:08

Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 3: AW BI

16 мин

5.9K

Блог компании ИТ-интегратор Белый кодВизуализация данных * Хранение данных * Анализ и проектирование систем *

Обзор

Меня зовут Андрей Рыжик, я product owner BI-направления в компании «Белый код». Продолжаем серию обзоров российских BI-систем с поддержкой ETL для малого и среднего бизнеса. Ранее мы разбирали PolyAnalyst, Modus. Сегодня на очереди AW BI – система, которая позиционирует себя как «дружелюбная BI-платформа» с самой демократичной стоимостью на рынке.

lilyerma 22 апр в 10:56

FinOps в S3: Как эффективно управлять стоимостью хранения

Средний

8 мин

Блог компании ИнферитФинансы в ITОблачные сервисы * Хранение данных *

Туториал

Каждый год объем данных в мире растет на 24.4%. По прогнозам IDC, в 2025 году человечество должно было сгенерировать 175 зеттабайт данных. Исследование показывает, что значительный рост хранения данных за последние годы приходится на публичные облака.

В облаках стандартом для хранения этих массивов стал S3 (Simple Storage Service). Он подкупает своей простотой и дешевизной на старте. Но в этом и кроется ловушка: как только объем данных переваливает за терабайты, а количество запросов — за миллионы, счета начинают «кусаться».

Разберем на примере Яндекс Облака, какие рычаги управления стоимостью (FinOps) у нас есть и как навести порядок в бакетах, пока они не съели ваш бюджет.

+11

ph_piter 22 апр в 09:14

Книга: «Apache Kafka в действии. От базовых концепций до продакшена»

2 мин

5.6K

Блог компании Издательский дом «Питер»Профессиональная литература * Apache * Хранение данных *

Привет, Хаброжители! Apache Kafka — это эталонная платформа для аналитики в реальном времени, передачи событий и потоковой обработки. Выступая в качестве центрального узла для распределенных данных, Kafka обеспечивает беспрепятственный обмен между продюсерами и потребителями по модели «издатель — подписчик». Kafka легко обрабатывает миллионы событий в секунду, а его надежная архитектура гарантирует высокую отказоустойчивость и масштабируемость.

opensophy 21 апр в 05:10

mTLS: руководство — от теории к практике с управлением сертификатами и защиты сервисов

Простой

11 мин

7.6K

Информационная безопасность * Хранение данных * Системное администрирование * Управление проектами * Серверное администрирование *

Туториал

Если вы когда-либо выставляли сервис в интернет и смотрели на логи — вы знаете, что происходит в первые минуты. Сканеры, боты, перебор паролей. Firewall помогает, но не всегда. VPN — хорошо, но не всегда удобно и сами протоколы в России к примеру хорошо работают. А что если сервер будет просто отказывать в соединении всем, у кого нет нужного криптографического сертификата — ещё до того, как они увидят страницу логина? Это и есть mTLS.

В статье разберём: что такое mTLS и как работает рукопожатие, как это связано с Zero Trust, от каких атак защищает и где принципиально бессилен, какие риски несёт сама PKI-инфраструктура и где чаще всего ошибаются при реализации. В конце — практика: как мы в Opensophy сделали mtls.sh, bash-скрипт для управления mTLS-сертификатами под Traefik, и почему архитектура «промежуточный CA на каждого клиента» позволяет мгновенно отзывать доступ без CRL и OCSP в Traefik.

Статья будет полезна всем, кто хочет защитить свои сервисы — будь то домашняя лаборатория, панели управления вроде Proxmox или Portainer/Dokploy, внутренние API или любой сервис, который не должен быть доступен всем подряд. Если коротко: если вы выставляете что-то в интернет и не хотите, чтобы туда мог зайти кто угодно — mTLS для этого и существует.

Читать

+11

2 3 ...

175 176