Как стать автором

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

СтатьиПостыНовостиАвторыКомпании

Virron 15 апр в 13:16

Погружение в ClickHouse: делаем первые и успешные шаги

Простой

6 мин

11K

Big Data*Хранение данных*Data Engineering*SQL*Хранилища данных*

Из песочницы

Привет! Меня зовут Андрей Дорожкин, и я руковожу командой администрации баз данных в Hybrid. В этом материале я поделюсь опытом работы с ClickHouse — колоночной БД, разработанной специально для аналитических запросов, которая позволяет получать результаты в разы быстрее традиционных решений. Также я подсвечу, как устроен этот продукт, чем он отличается от реляционных баз данных, и в каких сценариях его использование может дать бизнесу реальное преимущество.

Пара слов о компании Hybrid. Мы — независимая AdTech-экосистема с собственным стеком технологий и решений для любых рекламных целей. Развиваем собственные технологии благодаря in-house отделу разработки, который каждый день работает над их улучшением. ClickHouse — инструмент, который мы выбираем для хранения данных за высокую скорость обработки запросов, эффективное сжатие данных и масштабируемость.

Читать далее

+5

MaxRokatansky 15 апр в 10:12

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 2

Средний

10 мин

2.3K

Блог компании OTUSХранение данных*Хранилища данных*SQL*

Перевод

Выбор облачного хранилища данных — задача не из простых: десятки решений, каждая со своими плюсами и подводными камнями. В этой статье — результаты масштабного практического исследования, в ходе которого команда Agritask сравнила производительность, масштабируемость, стоимость и совместимость SQL ведущих платформ: от ClickHouse и BigQuery до Druid и Firebolt. Без маркетинговых обещаний — только реальные тесты, живые выводы и нюансы, которые неочевидны до момента внедрения.

Читать далее

+2

Krinistopen 14 апр в 13:14

Миф о дешевом железе: полный расчет стоимости КХД для облака и локальных решений

13 мин

5.1K

Блог компании VK TechБлог компании ArenadataБлог компании VKОблачные сервисы*Хранилища данных*

Корпоративное хранилище данных (КХД) — один из ключевых компонентов любой ИТ-системы, который необходим для безопасного хранения и использования всех данных компании. Но построение КХД нередко превращается в «задачу со звездочкой» еще на этапе выбора платформы для развертывания: многим компаниям сложно определить, какой из вариантов будет не только надежнее, но и дешевле.

В этой статье попробуем в деталях и на примерах разобрать, какой вариант развертывания экономически рентабельнее и что стоит учитывать при выборе платформы для построения КХД.

Материал подготовлен директором центра бизнес-решений VK Tech Константином Дудниковым и директором по развитию облачного бизнеса Группы Arenadata Антоном Близгаревым @beton55.

Читать далее

+40

MaxRokatansky 11 апр в 19:39

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Средний

13 мин

4.4K

Блог компании OTUSХранилища данных*Хранение данных*SQL*Big Data*

Перевод

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.

Читать далее

+5

Kristina_v_IT 10 апр в 11:28

Как мы сделали одну большую песочницу для всех аналитиков

7 мин

6.5K

Блог компании РСХБ.цифра (Россельхозбанк)Хранилища данных*Big Data*PostgreSQL*Python*

Кейс

В мире данных и аналитики, где каждый день генерируются огромные объемы информации, создание единой платформы для работы с данными становится неотъемлемой частью успешной стратегии бизнеса. Мы команда РСХБ.Цифра, в которой я, Кристина Проскурина, руковожу управлением бизнес-анализа данных, а Алексей Кошевой, руководитель отдела развития витрин данных «РСХБ-Интех», руководит разработкой аналитической отчетности и платформы по исследованию данных. В этой статье мы расскажем, как наша команда разработала единую песочницу для аналитиков, которая объединила все инструменты и ресурсы в одном месте, обеспечивая эффективность, удобство и возможность совместной работы.

К песочнице

+16

yadro_team 9 апр в 17:20

Более 4 000 ГБ за 11 минут: тестируем три сценария резервного копирования с Кибер Бэкап и TATLIN.BACKUP

Средний

14 мин

3.7K

Блог компании YADROБлог компании КиберпротектРезервное копирование*Хранение данных*Хранилища данных*

В формуле идеального решения для резервного копирования данных enterprise-класса много переменных. Одна из ключевых — производительность решения, включая скорость копирования, нагрузку на сеть и потребление вычислительных ресурсов хранилища и источника данных.

Инженеры компаний YADRO и Киберпротект протестировали совместную работу системы резервного копирования Кибер Бэкап и системы хранения данных TATLIN.BACKUP в трех сценариях сохранения резервных копий виртуальных машин: с inline-дедупликацией, по протоколу NFS и агентом Tboost на узле хранения. Поделимся результатами тестирования совместимого решения, а заодно предметно поговорим об организации правильной архитектуры с учетом особенностей конкретной инфраструктуры.

Читать далее

+13

Doroveyev_Alexander 9 апр в 11:59

Data Governance и Бизнес: как найти общий язык

Простой

2 мин

333

Big Data*HabrХранение данных*Хранилища данных*

Мнение

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!»

«Нам нужны качественные данные, а вы все про свои процессы!»

«Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!»

Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы.

Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе:

1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу.

2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу.

3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня.

Как же выстроить эффективный диалог между DG и бизнесом?

Читать далее

0

runity 8 апр в 15:42

S3: возможности протокола и паттерны использования

Средний

8 мин

8K

Блог компании РунитиОблачные сервисы*Хранилища данных*

Обзор

Привет, Хабр! На связи Игорь Шишкин, я руковожу командой R&D в облачном направлении Рег.ру и являюсь архитектором наших сервисов. В статье расскажу, как в целом работать с S3-совместимыми хранилищами, зачем их использовать, какие бывают базовые паттерны и что с этим делать. Поехали!

Читать далее

+9

stratnevpy 2 апр в 13:32

Отказоустойчивость в MinIO

Простой

14 мин

6.1K

Блог компании RUTUBEХранение данных*Хранилища данных*Анализ и проектирование систем*IT-инфраструктура*

Обзор

Simple Storage Service или S3 — сервис (и одновременно протокол) для хранения данных большого объёма. Для работы использует API поверх HTTP, который позволяет загружать или получать объекты из хранилища.

В проектах с приватной инфраструктурой часто возникает потребность в организации on-premise S3-хранилища. Популярное решение в таком случае это MinIO — удобная и довольно простая в использовании реализация сервиса S3. Когда нам в RUTUBE потребовалось S3, мы не стали долго думать и взяли MinIO, потому что он стильный, модный, молодежный хорошо себя зарекомендовал на рынке, хорошо документирован и прост в первоначальной настройке и эксплуатации.

В этой статье поделюсь своим опытом использования MinIO, сделав акцент на отказоустойчивости и сохранности данных в случае инцидентов разной степени — от выпадения диска до пожара в цоде.

Читать далее

+17

GrishinAlex 2 апр в 12:09

Мультирегиональность в Selectel S3: работаем с регионами SPB и MSK из Python

Простой

6 мин

3K

Блог компании SelectelPython*Облачные сервисы*Распределённые системы*Хранилища данных*

Обзор

Катастрофоустойчивое хранение данных — одна из актуальных задач при построении IT-инфраструктуры. Но ее решение может завести в тупик. Как оптимальнее организовать хранение данных, исключив домены отказа? Как разместить определенные данные ближе к целевой нагрузке или части аудитории? Как организовать асинхронную репликацию данных между Москвой и Санкт-Петербургом?

Всем привет! Меня зовут Гришин Александр, я продакт-менеджер в Selectel и отвечаю за развитие объектного хранилища и облачных баз данных. Под катом я расскажу, как с помощью мультирегиональности взаимодействовать с разными регионами S3 через Python и библиотеку boto3. Это поможет хранить и обрабатывать данные в Москве и Санкт-Петербурге, используя единую авторизацию и простой интерфейс. К тому же — улучшить катастрофоустойчивость и доступность данных, а еще снизить задержки при работе с объектами, когда инфраструктура распределена между городами.

Читать дальше →

+50

SmoothDenis 31 мар в 12:46

S3-совместимые хранилища: как собрать свой конструктор

11 мин

6.7K

Блог компании ТочкаХранилища данных*Хранение данных*

✏️ Технотекст 7

В одном из больших кластеров S3 в Точке хранится 110 терабайт полезных данных. Это не много по объёму, но он распределён среди 600+ миллионов файлов. Стоимость работы системы оценивается более чем в миллион рублей в месяц — это с учётом фактора репликации, бэкапов, основной системы хранения и резерва ресурсов. Это пятое место по стоимости среди всех сервисов.

Мы выбрали SeaweedFS, потому что это удобный конструктор, который позволяет загружать файлы любого размера, легко масштабироваться без деградации скорости доступа и надёжно защищать данные от потерь. В статье рассказываю, каким должно быть идеальное S3-хранилище для миллионов файлов, и почему нам не подошли Ceph и Minio.

Читать далее

+15

AlexWriter 31 мар в 09:00

Бинарный формат вместо текста

Средний

9 мин

6K

Rust*Хранение данных*Хранилища данных*Высоконагруженные системы*

Обзор

Как быстро, без боли и страданий организовать хранение структурированных данных в бинарном формате. А затем и их передачу при необходимости. А потом, немного подумав, ещё их обнаружение в «замусоренном» потоке.

Читать далее

+10

beeline_cloud 30 мар в 19:07

История «World Backup Day» [и компактный дайджест решений] — хороший повод сделать резервную копию

Простой

7 мин

1.7K

Блог компании beeline cloudХранение данных*Хранилища данных*Информационная безопасность*История IT

Ретроспектива

31 марта — это день, призванный объединить тех, кто делает бэкапы, и тех, кто их пока не делает. И как можно быстрее сократить количество последних. Мы в beeline cloud решили затронуть эту тему и поговорить о том, когда и кто первым начал праздновать «День резервного копирования», и как развивалась эта традиция.

Читать далее

+13

VTB 28 мар в 10:19

Секционирование в PostgreSQL. Архитектура корзинного хранения данных. (Basket partitioning)

Средний

9 мин

4.9K

Блог компании ВТБСерверная оптимизация*Базы данных*Хранилища данных*PostgreSQL*

Кейс

Привет, ХАБР! Я Хаймин Владимир, эксперт по системам управления базами данных PostgreSQL в ВТБ. Когда размеры таблиц становятся большими — обслуживание и доступ к данным становятся непростой задачей. Я хочу поделиться методикой организации секционирования в PostgreSQL, которая существенно упростила нам жизнь с таблицами большого размера, хранящие, например, исторические данные по датам. Назовем ее условно «Корзинным секционированием» (Basket partitioning). Данная технология реализована архитектурно, без необходимости расширения функционала сторонними инструментами или расширениями только штатными средствами ванильных версий PostgreSQL. Такая система хранения реализована, например, в проекте мониторинга pg_awr для упрощения удаления старых данных.

Секционирование в PostgreSQL

Секционирование — это техника разбиения одной большой таблицы базы данных (БД) на несколько меньших, логически связанных частей, называемых секциями. При этом, такая таблица с точки зрения ППО выглядит как одна большая таблица.

Современные версии PostgreSQL имеют достаточно развитые средства для работы с секционированными таблицами. При этом, несмотря на то что страдает автоматизация, например, создания и удаления секций, при правильной организации хранения данных работать с такой БД достаточно удобно. И эти удобства минимизируют вероятные ошибки.

PostgreSQL начиная с 10 версии, помимо наследования, поддерживается декларативное секционирование: диапазонное, списочное, хэш-секционирование.

Какие бывают базы данных по методу их наполнения и использования?

Читать далее

+11

aton4eg 28 мар в 10:02

Как создать дедуплицирующую файловую систему с нуля? Опыт TATLIN.BACKUP

Средний

11 мин

4.7K

Блог компании YADROХранение данных*Хранилища данных*Резервное копирование*Linux*

Кейс

Как сделать высоконагруженную систему хранения данных в сжатые сроки? Чтобы она не падала через день, не теряла данные и не поглощала ресурсы, как Гулливер провизию в амбаре лилипутов. А еще нужно реализовать дедупликацию и заложить будущий функционал на этапе создания архитектуры. Неплохо бы и стоимость хранения гигабайта снизить до минимума, а скорость передачи данных наоборот, увеличить до второй космической.

Меня зовут Ростислав, я эксперт по разработке ПО отдела систем обработки данных в YADRO. Расскажу о вкладе нашей команды в разработку TATLIN.BACKUP: как мы с нуля создали дедуплицирующую файловую систему, а также какие вызовы преодолели за два года разработки и 200 тысяч строк кода.

Читать далее

+25

olegbunin 24 мар в 12:01

Эволюция Redis в Valkey 8.0: разбираем архитектурные изменения с точки зрения производительности

Средний

12 мин

7.6K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Yandex Cloud & Yandex InfrastructureБазы данных*Open source*Хранилища данных*

Обзор

В сентябре 2024 года вышел релиз Valkey 8.0 — это key-value-хранилище также часто называют BSD-клоном Redis. В отличие от Redis, Valkey изначально создавался как опенсорс-проект. У него нет энтерпрайз-версии, а значит, развитие не сдерживается коммерческими ограничениями.

Весной 2024 года, когда началась активная работа над форком, команда разработчиков смогла принять и стабилизировать ряд патчей, которые заметно улучшили производительность по сравнению с Redis 7.2.

В этой статье Евгений Дюков, разработчик Managed Databases в Yandex Cloud, разбирает некоторые из изменений и делится результатами проведённых бенчмарков, которые позволяют оценить, как именно новые патчи повлияли на производительность — и в позитивном, и, в некоторых случаях, в негативном ключе. Особенно интересно будет тем, кто ждёт релиз Valkey 8.1 этой весной.

Читать далее

+33

FrolikovEA 23 мар в 16:18

Понимание различий: наблюдаемость против мониторинга против APM против профилирования

Простой

3 мин

1.1K

Java*Хранилища данных*Управление продуктом*

Recovery Mode

В современном мире облачных технологий поддержание оптимальной производительности приложений требует использования различных взаимодополняющих подходов. Хотя эти инструменты имеют схожие функции, они выполняют разные задачи в управлении производительностью.

Читать далее

0

Pavel-T 21 мар в 11:22

Как мы учили «1С: Предприятие» работать с объектным хранилищем S3: предпосылки, алгоритм, результат

8 мин

4.1K

Блог компании VK TechБлог компании VK1С*Хранилища данных*

Кейс

Платформа «1С:Предприятие» де-факто является стандартом в части ПО для управления процессами и работы с данными для многих компании. Но «стоковых» интеграций, с которыми компании начинают свой путь, не всегда достаточно. Например, со временем бизнес может начать упираться в возможности используемого хранилища и сталкиваться с необходимостью настройки новых интеграций.

В этой статье расскажем, как компания «ЦЛР ГРУПП» перестраивала работу «1С:Управление торговлей» с локального дискового хранилища на S3: с чего мы начинали, зачем понадобилась миграция, как ее реализовали и что мы получили в результате.

Читать далее

+28

HannaBilova 18 мар в 15:27

Обзор накопителя 2 ТБ Micron 4600

13 мин

2.3K

Блог компании ua-hosting.companyКомпьютерное железоНакопителиХранение данных*Хранилища данных*

Перевод

Накопитель Micron 4600 порадует ценителей высокопроизводительных устройств хранения данных. Этот мощный SSD выводит скорость на новый уровень, не жертвуя энергоэффективностью. Оснащенный контроллером SMI SM2508 и новейшей 276-слойной памятью TLC NAND от Micron, он воплощает в себе все, что можно ожидать от современного накопителя. Micron 4600 знаменует собой новую эру доступных и быстрых дисков PCIe 5.0, предлагая производительность без привычных компромиссов. Хотя это нельзя назвать революционным инженерным достижением, устройство уверенно прокладывает путь к стабильному развитию рынка SSD, переживающего череду взлетов и падений. И этот накопитель — определенно один из взлетов.

Micron 4600 — это OEM-накопитель, поэтому его нельзя назвать широко доступным в розничной продаже, к тому же у него относительно слабая реклама. Даже в одиночной конфигурации этот накопитель демонстрирует впечатляющие характеристики и выдающуюся энергоэффективность для своего уровня производительности. Хотя было бы замечательно увидеть версию с объёмом 8 ТБ, для большинства пользователей текущей ёмкости более чем достаточно. Теперь остаётся с интересом ждать, сможет ли Samsung дать достойный ответ с выпуском 9100 Pro.

Можно задаться вопросом, зачем нужен такой быстрый диск. Micron позиционирует 4600 как решение для профессиональных задач, включая искусственный интеллект, что подразумевает, что диск является хорошим выбором для HEDT (high-end desktop). Несомненно, этот диск также более чем пригоден для игр в будущем, а его пиковая производительность превосходит аналоги. С его появлением на рынке устанавливается новая планка для SSD-накопителей, так как система хранения данных PCIe 5.0 становится все более совершенной.

Читать дальше →

+8

AleksandrFiks 18 мар в 13:19

Переезжаем с OneDrive на NextCloud: можно ли сделать полноценную замену облачному диску на базе открытого ПО

6 мин

14K

Блог компании К2ТехОблачные сервисы*Хранилища данных*IT-инфраструктура*

Обзор

Привет, Хабр! Меня зовут Александр Фикс, и я менеджер продукта в K2 Cloud. В этой статье я хотел бы рассказать о том, как мы решали задачу замены корпоративных облачных ресурсов собственным сервисом. Под катом — подробный рассказ про архитектуру NextCloud в K2 Cloud, а также разбор нашего опыта разработки плагинов, чтобы довести файловое хранилище до корпоративного уровня.

Читать далее

+13

3

4 5 ...