Как стать автором
Обновить
65.22

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
Порог рейтинга
Уровень сложности

Приоткрываем завесу: о принципах работы дисковых хранилищ VK Cloud

Время на прочтение8 мин
Количество просмотров1.6K

Инфраструктурный слой большинства облачных платформ — та часть айсберга, которая остается глубоко под водой и никогда не видна простым обывателям. Вместе с тем именно IaaS-сервисы в целом и дисковые хранилища в частности являются основой для построения пользователями своих инфраструктур в облаке. 

Привет, Хабр. Меня зовут Василий Степанов. Я руководитель команды разработки Storage в VK Cloud. В этой статье я расскажу о том, как устроено наше дисковое хранилище: какие диски используются в VK Cloud и как мы с ними работаем.

Читать далее

Новости

Пятый, юбилейный выпуск исследования «BI-круг Громова»

Время на прочтение11 мин
Количество просмотров1.2K

Пятый, юбилейный выпуск нашего исследования «Круги Громова» выходит в момент, когда рынок отечественных BI-платформ переживает волну бурного роста и трансформации. За два года, прошедшие с публикации предыдущего отчёта, импортозамещение перестало быть формальностью и стало стратегической необходимостью: доля внедрений российских BI-систем выросла почти в восемь раз, а зарубежных — упала до 23 %[1]. На этом фоне особенно важны объективные ориентиры, позволяющие ИТ-директорам и бизнес-пользователям выбрать платформу, которая останется актуальной на ближайшие несколько лет. Именно такую навигационную карту мы и предлагаем.

Читать далее

Data Mesh: ожидания vs реальность

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.3K

Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные разбросаны по Excel-файлам, а команда DWH не успевает закрывать запросы. Знакомо? Мы прошли через это и решили внедрить Data Mesh. Ожидания были амбициозные, но что получилось на самом деле?

Читать далее

MVP по «умному» поиску данных

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.2K

Всем привет, меня зовут Александр, я аналитик в Альфа-Банке. Совместно с командой мы разрабатываем и развиваем платформу для дата-инженеров (DE) и дата-саентистов (DS), именуемую Feature Store. Она даёт возможность коллегам работать с большими данными и упрощает бюрократию жизненного цикла создания ETL и ввода моделей в промышленную эксплуатацию.

Но хотелось бы улучшить процесс по поиску данных в ней, так как объёмы информации стремительно растут.

Классический поиск выдаёт результаты по точному совпадению, и это не самый удобный вариант, когда данных много. Поэтому нужную информацию, если ты точно не знаешь как найти, невозможно отыскать. Озадачившись этой проблемой, я решил сделать MVP «умного» поиска, который позволяет искать данные/фичи/поля не по точному совпадению, а с учётом смысла.

Надеюсь, данная статья поможет показать и пролить свет на вопрос — «А как же ещё бывает?»

Читать далее

Атака через заброшенные бакеты

Время на прочтение4 мин
Количество просмотров3.3K

Пример ссылки на удалённый бакет termis с государственного сайта, источник

В связи с развитием технологий каждый год появляются принципиально новые способы атаки, которые раньше никому в голову не приходили и/или не были возможны технически. Например, в 2025 году впервые в истории исследователи провели атаку через заброшенные бакеты S3. Это разновидность атаки на цепочку поставок, как пресловутый случай SolarWinds. Такие действия злоумышленников практически невозможно детектировать стандартными инструментами безопасности, поэтому те могут незаметно работать годами.

Взлом доверенных бакетов означает автоматический доступ к тысячам компаний и организаций, которые скачивают оттуда софт: обновления, исходный код, опенсорсные библиотеки и т. д.
Читать дальше →

Хакатон Samsung IT Academy Hack 2025: обзор задачи от VK Tech

Время на прочтение7 мин
Количество просмотров1.2K

С ростом объема генерируемых данных повышаются требования к компетенции ИТ-специалистов в части работы с Big Data и решениями для их сбора, обработки и хранения. Это общий тренд, который по мере цифровизации бизнеса только набирает обороты. 

В соответствии с этим вектором IT Академия Samsung в апреле 2025 года провела уже второй хакатон IT Academy Hack 2025. VK Tech стал индустриальным партнером и предоставил инфраструктуру для студентов, а также подготовил одну из двух задач, которую студенты решали в рамках хакатона.

Меня зовут Павел Кутаков, я эксперт-архитектор команды VK Tech в направлении Data Services. В этой статье расскажу об актуальных решениях для работы с данными, а также о задаче и подходах, которые можно было применить для ее решения.

Читать далее

Как не запутаться в обновлениях 1C: работаем с «Обновлятором»

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров6K

Распространенная головная боль пользователей 1C — обновление. Это нетривиальная задача, которая требует внимания ко множеству нюансов. Что‑то забыли, что‑то не учли — и уже потеря денег, а может быть, и данных. Мы рассмотрим несколько подобных примеров. Теперь многое становится проще. Рассказываем о том, как с помощью стороннего инструмента автоматизировать процесс, сэкономить время и избежать всех возможных препятствий. Уделим внимание работе с кластером в готовом облаке 1С в Selectel.
Читать дальше →

Снапшоты, клоны и не только: как устроен и что умеет маппер в СХД TATLIN

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров2.1K

Привет, Хабр! Меня зовут Алексей, я главный эксперт по разработке ПО в департаменте СХД YADRO. В этой статье я расскажу об устройстве такого важного программного компонента СХД, как маппер, о реализуемой с его помощью функциональности TATLIN.UNIFIED — полноценных тонких томах, снапшотах, клонах — и о планах по развитию этого компонента.

Читать далее

Чем отличается обработка ПД Интернет-магазином от обработки ПД любым другим сайтом: это нужно знать бизнесу

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.6K

Что общего между... Нет, не ежиком и молоком или карандашом и ботинком… А между маленьким и крупным Интернет-магазином?

Так как я юрист для бизнеса, а не психиатр, мой вопрос проще. Но если вам интересно, что там с ежиком, молоком, карандашом и ботинком, отвечу здесь, чтобы вы не ушли искать, так как дальше будет крайне важно для тех, кто продает что-либо в Сети

Узнать про молоко, ежиков и обработку ПД

Дата-центр на орбите: технические особенности футуристической концепции

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.9K


Недавние проекты — от китайской «Трёхтелесной вычислительной констелляции» с ИИ-спутниками до коммерческих инициатив вроде Lumen Orbit и Lonestar Data — наглядно демонстрируют, что идея «ЦОД в космосе» вышла за рамки научной фантастики.

Предыдущая статья вызвала множество комментариев и споров по этой теме, поэтому я решил изучить этот вопрос подробнее — опираясь не на громкие ИТ-тренды, а на реальные научные исследования и практику (ссылки на первоисточник проставлены по тексту).

Эта статья не источник для споров и не личный опыт автора, а база для обмена мнениями. Кто знает, может именно в комментариях «Хабра» родится истина о том, как настроить работу ЦОДов в космосе.
Читать дальше →

OLAP-кубы – вчерашний день? Технологии нового поколения для аналитики данных

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров8.8K

За последние полгода к нам обратились сразу несколько заказчиков с запросом модифицировать или мигрировать структуру их OLAP-кубов – естественно, с сохранением функциональности. Прежде чем браться за задачу, неплохо бы вспомнить, с чем мы имеем дело.

Об OLAP-кубах, как о некоей абстракции, я услышал во второй половине 2000-х гг., а в реальности столкнулся с ними несколькими годами позже.

Читать далее

Приходят как-то аналитики на офисную кухню, а там дата-инженеры в нарды играют…

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров4.7K

Один из игроков — я, Кирилл Красновид, тимлид BI-команды в Профи.ру. Наша задача — делать так, чтобы каждый быстро и удобно получал нужную информацию без лишней суеты и ожиданий. 

Поэтому мы стараемся все автоматизировать и оптимизировать. Сегодня расскажу, как решаем эти задачи, а ещё про собственные хранилища аналитиков и bus-фактор.

Читать далее

Максимизация производительности ScyllaDB

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров1.3K

ScyllaDB — это высокопроизводительная распределённая NoSQL-база данных, совместимая с Apache Cassandra, но в разы более быстрая за счет того, что написана на C++. Однако, несмотря на сверхбыструю скорость работы, можно ли сделать ее еще быстрее?

Читать далее

Ближайшие события

Идеальный NAS на 8 NVME дисков. Обзор Terramaster F8 Plus

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров12K

У меня как и, наверное, у любого айтишника есть какое-то огромное количество файлов, которое надо бэкапить. И у меня уже есть NAS с обычными HDD дисками для моих бэкапов. Но для себя я решил, что NAS c HDD хорошо подходит для хранения чего-то к чему не очень то и часто обращается. А вот если нужно хранить что-то что иногда нужно скачать или закачать, то значительно приятнее работать с NAS на NVME дисках.

Таких девайсов на самом деле не так уж и много. Есть некоторые модели на 4 диска. А вот на 8 дисков я даже и конкурентов не знаю. Поэтому сегодня будет обзор на уникальную по-своему штуковину - NAS на 8 быстрых NVME дисков. Да еще и с 10 гигабитным ethernet портом.

Читать далее

Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.2K

Почему, по данным экспертов GlowByte, целых 80% проектов внедрения систем бизнес-аналитики выходят за рамки изначально запланированного бюджета? Ответ парадоксально прост и сложен одновременно: компании систематически недооценивают реальную совокупную стоимость владения BI-системами. Наши наблюдения показывают, что большинство заказчиков концентрируются исключительно на очевидных статьях расходов, игнорируя множество "скрытых" факторов, которые неизбежно проявляются по мере развития проекта.

За годы работы с десятками проектов внедрения аналитических систем мы в GlowByte выявили закономерность — даже опытные ИТ-директора порой не учитывают до 40% реальных затрат при планировании бюджета на BI-инициативы. В этой статье я поделюсь инсайтами о наиболее типичных "финансовых ловушках", которые подстерегают компании на этом пути.

Читать далее

Почему мы делаем собственное объектное хранилище в MWS

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров1.8K

Привет! Меня зовут Алексей Баранов, я руковожу направлением Data Storage Systems в облаке MWS Cloud Platform. Мы начинаем серию статей, в которой расскажем, как устроены наши системы хранения, почему мы их делаем так и почему именно такие.

В этой статье расскажу, как мы подошли к выбору технологий для object storage новой облачной платформы. Обсудим плюсы и минусы популярных на рынке решений вроде Ceph RGW, какие требования мы предъявляли к системе, и какая архитектура в итоге получилась.

Читать далее

OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.5K

Для анализа и обработки больших объёмов данных применяются специальные системы — OLAP (Online Analytical Processing). Мы разберём основные принципы их работы, преимущества и примеры использования.

Определение OLAP-систем

OLAP-системы — это инструменты для анализа данных, которые позволяют быстро и эффективно находить ответы на сложные вопросы. 

Они находят применение в разных сферах, таких как финансы, производство, розничная торговля и другие.

Пример использования OLAP-технологии

«В компании, занимающейся продажей цифровых товаров и программного обеспечения, многомерный куб помогает анализировать данные».

Читать далее

ЦОД 2050: три реалистичные концепции развития дата-центров

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.4K


Что будет с дата-центрами, когда физические пределы достигнуты? Когда PUE упадёт ниже единицы, а каждая новая стойка будет выходить в минус? Ответ уже начинает проявляться. Новый виток эволюции ЦОДов не в росте плотности или увеличении каналов. Он — в изменении самой парадигмы: дата-центр не как здание, а как среда, экосистема, организм. В статье представил три сценария будущего дата-центров.

Спойлер: ни одна из описанных ниже концепций не является фантастикой. Все они — логическое продолжение уже происходящих процессов.
Читать дальше →

Пакетная репликация данных в аналитическом ландшафте ХД

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров513

Наполнение данными хранилища или озера, как правило, является первым большим шагом к доступности аналитической среды для основного функционала и работы конечных пользователей. От эффективной реализации этой задачи зависят стоимость и длительность всего проекта по созданию хранилища данных и сроки предоставления отдельных data-сервисов.

В этой публикации я поделюсь опытом реализации пакетной загрузки больших данных в аналитические хранилища и расскажу, когда следует выбрать именно пакетную загрузку, а когда – онлайн-подход. Отдельно раскрою, как многолетний опыт решения подобных задач был воплощен в промышленном инструменте репликации данных.

Читать далее

Мы в ответе за тех, кого сгенерировали

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.1K

Весна 2025 года — отличное время, чтобы оживить мой проект Econet, который посвящён проблемам цифрового мусора, современным подходам к работе с данными и инфраструктуре информационных систем.

Читать далее
1
23 ...