Хранилища данных *

Публикации, рассказывающие о хранилищах данных

СтатьиПостыНовостиАвторыКомпании

Vasi1y 6 июн в 13:50

Приоткрываем завесу: о принципах работы дисковых хранилищ VK Cloud

8 мин

1.6K

Блог компании VK TechБлог компании VKХранение данных*Хранилища данных*IT-инфраструктура*

Инфраструктурный слой большинства облачных платформ — та часть айсберга, которая остается глубоко под водой и никогда не видна простым обывателям. Вместе с тем именно IaaS-сервисы в целом и дисковые хранилища в частности являются основой для построения пользователями своих инфраструктур в облаке.

Привет, Хабр. Меня зовут Василий Степанов. Я руководитель команды разработки Storage в VK Cloud. В этой статье я расскажу о том, как устроено наше дисковое хранилище: какие диски используются в VK Cloud и как мы с ними работаем.

+34

GromovBI 5 июн в 14:02

Пятый, юбилейный выпуск исследования «BI-круг Громова»

11 мин

1.2K

Big Data*Хранилища данных*Хранение данных*Визуализация данных*

Пятый, юбилейный выпуск нашего исследования «Круги Громова» выходит в момент, когда рынок отечественных BI-платформ переживает волну бурного роста и трансформации. За два года, прошедшие с публикации предыдущего отчёта, импортозамещение перестало быть формальностью и стало стратегической необходимостью: доля внедрений российских BI-систем выросла почти в восемь раз, а зарубежных — упала до 23 %[1]. На этом фоне особенно важны объективные ориентиры, позволяющие ИТ-директорам и бизнес-пользователям выбрать платформу, которая останется актуальной на ближайшие несколько лет. Именно такую навигационную карту мы и предлагаем.

-8

vonirug 4 июн в 11:02

Data Mesh: ожидания vs реальность

Средний

10 мин

2.3K

Блог компании Лемана ТехData Engineering*Data Mining*Big Data*Хранилища данных*

Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные разбросаны по Excel-файлам, а команда DWH не успевает закрывать запросы. Знакомо? Мы прошли через это и решили внедрить Data Mesh. Ожидания были амбициозные, но что получилось на самом деле?

Simonov_Alex 3 июн в 13:01

MVP по «умному» поиску данных

Средний

11 мин

1.2K

Блог компании Альфа-БанкМашинное обучение*Искусственный интеллектХранилища данных*Python*

Туториал

Всем привет, меня зовут Александр, я аналитик в Альфа-Банке. Совместно с командой мы разрабатываем и развиваем платформу для дата-инженеров (DE) и дата-саентистов (DS), именуемую Feature Store. Она даёт возможность коллегам работать с большими данными и упрощает бюрократию жизненного цикла создания ETL и ввода моделей в промышленную эксплуатацию.

Но хотелось бы улучшить процесс по поиску данных в ней, так как объёмы информации стремительно растут.

Классический поиск выдаёт результаты по точному совпадению, и это не самый удобный вариант, когда данных много. Поэтому нужную информацию, если ты точно не знаешь как найти, невозможно отыскать. Озадачившись этой проблемой, я решил сделать MVP «умного» поиска, который позволяет искать данные/фичи/поля не по точному совпадению, а с учётом смысла.

Надеюсь, данная статья поможет показать и пролить свет на вопрос — «А как же ещё бывает?»

GlobalSign_admin 1 июн в 21:31

Атака через заброшенные бакеты

4 мин

3.3K

Блог компании GlobalSignOpen source*Информационная безопасность*Облачные сервисы*Хранилища данных*

Пример ссылки на удалённый бакет termis с государственного сайта, источник

В связи с развитием технологий каждый год появляются принципиально новые способы атаки, которые раньше никому в голову не приходили и/или не были возможны технически. Например, в 2025 году впервые в истории исследователи провели атаку через заброшенные бакеты S3. Это разновидность атаки на цепочку поставок, как пресловутый случай SolarWinds. Такие действия злоумышленников практически невозможно детектировать стандартными инструментами безопасности, поэтому те могут незаметно работать годами.

Взлом доверенных бакетов означает автоматический доступ к тысячам компаний и организаций, которые скачивают оттуда софт: обновления, исходный код, опенсорсные библиотеки и т. д.

Читать дальше →

pkut 30 мая в 12:01

Хакатон Samsung IT Academy Hack 2025: обзор задачи от VK Tech

7 мин

1.2K

Блог компании VK TechБлог компании VKБлог компании SamsungХакатоныХранилища данных*

С ростом объема генерируемых данных повышаются требования к компетенции ИТ-специалистов в части работы с Big Data и решениями для их сбора, обработки и хранения. Это общий тренд, который по мере цифровизации бизнеса только набирает обороты.

В соответствии с этим вектором IT Академия Samsung в апреле 2025 года провела уже второй хакатон IT Academy Hack 2025. VK Tech стал индустриальным партнером и предоставил инфраструктуру для студентов, а также подготовил одну из двух задач, которую студенты решали в рамках хакатона.

Меня зовут Павел Кутаков, я эксперт-архитектор команды VK Tech в направлении Data Services. В этой статье расскажу об актуальных решениях для работы с данными, а также о задаче и подходах, которые можно было применить для ее решения.

+33

oneastok 30 мая в 11:00

Как не запутаться в обновлениях 1C: работаем с «Обновлятором»

Простой

14 мин

Блог компании Selectel1С*IT-инфраструктура*Облачные сервисы*Хранилища данных*

Туториал

Распространенная головная боль пользователей 1C — обновление. Это нетривиальная задача, которая требует внимания ко множеству нюансов. Что‑то забыли, что‑то не учли — и уже потеря денег, а может быть, и данных. Мы рассмотрим несколько подобных примеров. Теперь многое становится проще. Рассказываем о том, как с помощью стороннего инструмента автоматизировать процесс, сэкономить время и избежать всех возможных препятствий. Уделим внимание работе с кластером в готовом облаке 1С в Selectel.

Читать дальше →

+47

axle 22 мая в 12:16

Снапшоты, клоны и не только: как устроен и что умеет маппер в СХД TATLIN

Средний

14 мин

2.1K

Блог компании YADROХранение данных*Хранилища данных*IT-инфраструктура*Системное администрирование*

FAQ

Привет, Хабр! Меня зовут Алексей, я главный эксперт по разработке ПО в департаменте СХД YADRO. В этой статье я расскажу об устройстве такого важного программного компонента СХД, как маппер, о реализуемой с его помощью функциональности TATLIN.UNIFIED — полноценных тонких томах, снапшотах, клонах — и о планах по развитию этого компонента.

+17

Legal-UP 20 мая в 21:00

Чем отличается обработка ПД Интернет-магазином от обработки ПД любым другим сайтом: это нужно знать бизнесу

Простой

3 мин

2.6K

Информационная безопасность*Хранение данных*Хранилища данных*Интернет-маркетинг*Управление продажами*

Туториал

Что общего между... Нет, не ежиком и молоком или карандашом и ботинком… А между маленьким и крупным Интернет-магазином?

Так как я юрист для бизнеса, а не психиатр, мой вопрос проще. Но если вам интересно, что там с ежиком, молоком, карандашом и ботинком, отвечу здесь, чтобы вы не ушли искать, так как дальше будет крайне важно для тех, кто продает что-либо в Сети

Узнать про молоко, ежиков и обработку ПД

SrvTrantor 20 мая в 16:01

Дата-центр на орбите: технические особенности футуристической концепции

Простой

8 мин

1.9K

Блог компании RUVDS.comIT-инфраструктура*Будущее здесьСетевые технологии*Хранилища данных*

Аналитика

Недавние проекты — от китайской «Трёхтелесной вычислительной констелляции» с ИИ-спутниками до коммерческих инициатив вроде Lumen Orbit и Lonestar Data — наглядно демонстрируют, что идея «ЦОД в космосе» вышла за рамки научной фантастики.

Предыдущая статья вызвала множество комментариев и споров по этой теме, поэтому я решил изучить этот вопрос подробнее — опираясь не на громкие ИТ-тренды, а на реальные научные исследования и практику (ссылки на первоисточник проставлены по тексту).

Эта статья не источник для споров и не личный опыт автора, а база для обмена мнениями. Кто знает, может именно в комментариях «Хабра» родится истина о том, как настроить работу ЦОДов в космосе.

Читать дальше →

+40

neoflex 20 мая в 10:42

OLAP-кубы – вчерашний день? Технологии нового поколения для аналитики данных

Средний

18 мин

8.8K

Блог компании NeoflexВизуализация данных*Хранилища данных*

Обзор

За последние полгода к нам обратились сразу несколько заказчиков с запросом модифицировать или мигрировать структуру их OLAP-кубов – естественно, с сохранением функциональности. Прежде чем браться за задачу, неплохо бы вспомнить, с чем мы имеем дело.

Об OLAP-кубах, как о некоей абстракции, я услышал во второй половине 2000-х гг., а в реальности столкнулся с ними несколькими годами позже.

Kirill__Kr 19 мая в 16:07

Приходят как-то аналитики на офисную кухню, а там дата-инженеры в нарды играют…

Средний

5 мин

4.7K

Блог компании Профи.руData Engineering*Хранилища данных*Базы данных*

Мнение

Один из игроков — я, Кирилл Красновид, тимлид BI-команды в Профи.ру. Наша задача — делать так, чтобы каждый быстро и удобно получал нужную информацию без лишней суеты и ожиданий.

Поэтому мы стараемся все автоматизировать и оптимизировать. Сегодня расскажу, как решаем эти задачи, а ещё про собственные хранилища аналитиков и bus-фактор.

alealandreev 19 мая в 13:15

Максимизация производительности ScyllaDB

Средний

14 мин

1.3K

Data Engineering*Базы данных*NoSQL*Хранилища данных*Хранение данных*

Туториал

Из песочницы

ScyllaDB — это высокопроизводительная распределённая NoSQL-база данных, совместимая с Apache Cassandra, но в разы более быстрая за счет того, что написана на C++. Однако, несмотря на сверхбыструю скорость работы, можно ли сделать ее еще быстрее?

devpew 16 мая в 19:46

Идеальный NAS на 8 NVME дисков. Обзор Terramaster F8 Plus

Простой

7 мин

12K

Компьютерное железоОблачные сервисы*Серверное администрирование*Хранение данных*Хранилища данных*

Обзор

У меня как и, наверное, у любого айтишника есть какое-то огромное количество файлов, которое надо бэкапить. И у меня уже есть NAS с обычными HDD дисками для моих бэкапов. Но для себя я решил, что NAS c HDD хорошо подходит для хранения чего-то к чему не очень то и часто обращается. А вот если нужно хранить что-то что иногда нужно скачать или закачать, то значительно приятнее работать с NAS на NVME дисках.

Таких девайсов на самом деле не так уж и много. Есть некоторые модели на 4 диска. А вот на 8 дисков я даже и конкурентов не знаю. Поэтому сегодня будет обзор на уникальную по-своему штуковину - NAS на 8 быстрых NVME дисков. Да еще и с 10 гигабитным ethernet портом.

+11

Gi_gi_gi_gi_gi 15 мая в 12:42

Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем

Простой

6 мин

2.2K

Блог компании GlowByteХранилища данных*Big Data*Управление разработкой*IT-компании

Туториал

Почему, по данным экспертов GlowByte, целых 80% проектов внедрения систем бизнес-аналитики выходят за рамки изначально запланированного бюджета? Ответ парадоксально прост и сложен одновременно: компании систематически недооценивают реальную совокупную стоимость владения BI-системами. Наши наблюдения показывают, что большинство заказчиков концентрируются исключительно на очевидных статьях расходов, игнорируя множество "скрытых" факторов, которые неизбежно проявляются по мере развития проекта.

За годы работы с десятками проектов внедрения аналитических систем мы в GlowByte выявили закономерность — даже опытные ИТ-директора порой не учитывают до 40% реальных затрат при планировании бюджета на BI-инициативы. В этой статье я поделюсь инсайтами о наиболее типичных "финансовых ловушках", которые подстерегают компании на этом пути.

al_baranov 15 мая в 12:09

Почему мы делаем собственное объектное хранилище в MWS

Средний

15 мин

1.8K

Блог компании MWSРазработка публичных облаков*Облачные вычисления*Хранилища данных*Хранение данных*

Кейс

Привет! Меня зовут Алексей Баранов, я руковожу направлением Data Storage Systems в облаке MWS Cloud Platform. Мы начинаем серию статей, в которой расскажем, как устроены наши системы хранения, почему мы их делаем так и почему именно такие.

В этой статье расскажу, как мы подошли к выбору технологий для object storage новой облачной платформы. Обсудим плюсы и минусы популярных на рынке решений вроде Ceph RGW, какие требования мы предъявляли к системе, и какая архитектура в итоге получилась.

+11

bi-denvic 15 мая в 11:09

OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных

Средний

8 мин

2.5K

Визуализация данных*Открытые данные*Хранение данных*Хранилища данных*Базы данных*

FAQ

Для анализа и обработки больших объёмов данных применяются специальные системы — OLAP (Online Analytical Processing). Мы разберём основные принципы их работы, преимущества и примеры использования.

Определение OLAP-систем

OLAP-системы — это инструменты для анализа данных, которые позволяют быстро и эффективно находить ответы на сложные вопросы.

Они находят применение в разных сферах, таких как финансы, производство, розничная торговля и другие.

Пример использования OLAP-технологии

«В компании, занимающейся продажей цифровых товаров и программного обеспечения, многомерный куб помогает анализировать данные».

SrvTrantor 13 мая в 12:01

ЦОД 2050: три реалистичные концепции развития дата-центров

Простой

7 мин

4.4K

Блог компании RUVDS.comIT-инфраструктура*Будущее здесьСетевые технологии*Хранилища данных*

Обзор

Что будет с дата-центрами, когда физические пределы достигнуты? Когда PUE упадёт ниже единицы, а каждая новая стойка будет выходить в минус? Ответ уже начинает проявляться. Новый виток эволюции ЦОДов не в росте плотности или увеличении каналов. Он — в изменении самой парадигмы: дата-центр не как здание, а как среда, экосистема, организм. В статье представил три сценария будущего дата-центров.

Спойлер: ни одна из описанных ниже концепций не является фантастикой. Все они — логическое продолжение уже происходящих процессов.

Читать дальше →

+41

EvgenyVilkov 13 мая в 09:29

Пакетная репликация данных в аналитическом ландшафте ХД

Средний

14 мин

513

Блог компании Data SapienceBig Data*Хранилища данных*Hadoop*Data Engineering*

Обзор

Наполнение данными хранилища или озера, как правило, является первым большим шагом к доступности аналитической среды для основного функционала и работы конечных пользователей. От эффективной реализации этой задачи зависят стоимость и длительность всего проекта по созданию хранилища данных и сроки предоставления отдельных data-сервисов.

В этой публикации я поделюсь опытом реализации пакетной загрузки больших данных в аналитические хранилища и расскажу, когда следует выбрать именно пакетную загрузку, а когда – онлайн-подход. Отдельно раскрою, как многолетний опыт решения подобных задач был воплощен в промышленном инструменте репликации данных.

meliksetyan 12 мая в 15:54

Мы в ответе за тех, кого сгенерировали

Простой

3 мин

1.1K

Облачные сервисы*Управление разработкой*Хранение данных*Хранилища данных*

Мнение

Recovery Mode

Весна 2025 года — отличное время, чтобы оживить мой проект Econet, который посвящён проблемам цифрового мусора, современным подходам к работе с данными и инфраструктуре информационных систем.

2 3 ...

67 68