Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Статьи Посты Новости Авторы Компании

Maxilect 19 апр в 07:40

Как мы переносили базу Clickhouse между географически удаленными дата-центрами

Средний

6 мин

1.9K

Блог компании MaxilectСистемное администрирование*Администрирование баз данных*Хранилища данных*DevOps*

Туториал

В конце прошлого года мы писали о сложном переезде нашего собственного сервиса в новый дата-центр в Детройте. Среди прочих задач мы переносили Clickhouse. Напомню, что речь идет о нагруженном сервисе, который обслуживает десятки серверов, принимающих сотни тысяч запросов с низкой latency в секунду.

В этой статье рассказываем, как мы переносили данные, не имея возможности отключить сервис или воспользоваться автоматической репликацией.

Объем данных для Clickhouse у нас не такой уж и большой - процесс получился не столько объемный, сколько ресурсоемкий. Но в открытых источниках информации по использованным механизмам минимум, поэтому считайте это руководством к clickhouse-copier утилите (https://github.com/ClickHouse/copier) на конкретном примере со скриптами и командами для запуска.

+12

centerco 4 апр в 18:09

Оптимизируем параметры запуска приложения Spark. Часть первая

5 мин

14K

Блог компании билайнBig Data*Хранилища данных*Data Engineering*

Кейс

Привет! Меня зовут Андрей Чучалов, я работаю в билайне, и в этом посте я расскажу про оптимизацию параметров запуска приложений в Spark, поиск проблем и повышение производительности. Разберем запуск приложений Spark в базовой и расширенной версиях, покажу методы расчёта основных параметров работы приложения для производительности и эффективности использования доступных ресурсов кластера. Бонусом — о том, как всё это привязано к деньгам, и где сэкономить можно, а где — не стоит.

Для чего это вообще нужно

Спараметризировать приложение — это не такая уж грандиозная задача, а вот попытаться понять взаимосвязь эффективности работы приложения со стоимостными параметрами такой работы — это уже сложнее. Тут вам пригодится своеобразное «боковое зрение».

В рассказе и на примерах я буду исходить из того, что у нас по умолчанию процесс ETL-обработки данных правильно, с самой программой всё ОК и она корректно спроектирована. И оборудование в составе кластера тоже рабочее и достаточное для запуска приложения. Это позволит говорить именно о влиянии параметров на эффективность.

+17

ru_vds 31 мар в 16:00

Почему люди не делают бэкапы?

Простой

6 мин

15K

Блог компании RUVDS.comРезервное копирование*Хранение данных*Хранилища данных*

Дайджест

Есть у меня вузовский товарищ Сашка. Математик, физик, а теперь и разработчик (умело монетизирует мозги), умный до безобразия. Ещё в университете он проявлял патологическую собранность в походах: чего бы ни понадобилось, всё было у него в рюкзаке. Год за годом он погружался в тему жизнеобеспечения всё глубже — и вот в ковидные времена общество получило выживальщика, продуманного до мелочей. Это тот случай, когда тушёнка, сгущёнка, йодид калия, триста способов разжечь костёр, землянка в пригородном лесу уже выкопана и ~~меблирована~~ обставлена по последнему слову выживания. Так вот, этот разработчик, математик, физик и человек, желающий во что бы то ни стало сохраниться вместе с тихоходками, с полгода назад истерически кричал мне в трубку, что у него «стёрся» проект длиной в год. Причина истерики проста: он не сделал бэкап. И это могла быть курьёзная байка, но таких — сотни и тысячи. Это люди, которые доверяют какому-то авосю свой труд, свои силы, свой опыт, свои деньги, данные, судьбы своих компаний. А авось почему-то оказывается ненадёжным.

Это всё чёрная кошка виновата, а не бэкапы там какие-то несделанные

Почему так происходит? Предлагаю рассмотреть 9 возможных причин.

Читать дальше →

+52

devops_ht 26 мар в 18:56

ClickHouse как бэкенд для Prometheus

Средний

8 мин

7.4K

Системное администрирование*IT-инфраструктура*Хранение данных*Хранилища данных*DevOps*

Туториал

Привет! Меня зовут Михаил Кажемский, я Lead DevOps в IT‑интеграторе Hilbert Team. В последнее время к нам часто обращаются заказчики, которым нужна помощь с организацией хранения долгосрочных метрик в российских облаках. Так как для многих эта задача сейчас актуальная, в данной статье мы с моим коллегой Денисом Бабичевым решили рассказать, как мы используем мощные возможности ClickHouse для эффективного долгосрочного хранения метрик Prometheus. В статье вы найдете рекомендации по использованию инструмента и описание альтернативных решений, таких как Thanos, Grafana Mimir и Victoria Metrics.

+22

oldadmin 26 мар в 16:00

HDD, SSD или NVMe: что выбрать для виртуального сервера (тесты внутри)

Средний

6 мин

12K

Блог компании RUVDS.comХостингХранение данных*Хранилища данных*Накопители

Обзор

В сегодняшней статье разберём настройку одного из параметров конфигурации при заказе виртуального выделенного сервера. Речь пойдёт о типе накопителя, который будет использоваться для виртуалки. Попробуем вместе разобраться, чем виды накопителей отличаются друг от друга, и на что может повлиять тот или иной выбор.

Читать дальше →

+32

Commandame 21 мар в 12:57

Уравнение с тремя неизвестными: как отлавливать баги в системах хранения данных

15 мин

2.2K

Блог компании YADROТестирование IT-систем*IT-инфраструктура*Хранение данных*Хранилища данных*

Ретроспектива

Привет! Меня зовут Никита Гуцалов, я инженер в компании YADRO и занимаюсь разработкой ПО для системы хранения данных TATLIN.UNIFIED. Вообще с системами хранения данных (СХД) я работаю уже много лет и люблю эту тему, поскольку она постоянно бросает новые вызовы, заставляя решать довольно сложные и нестандартные проблемы, что очень увлекательно само по себе, а удачные решения приносят огромное удовлетворение. 

В статье я попытаюсь погрузить читателя в проблемы, с которыми нам, инженерам YADRO, приходится сталкиваться при отладке программного обеспечения СХД. Также покажу особенности работы с такими системами. Расскажу, какие инструменты, а иногда и решения, которые мы пишем сами, приходится для этого применять. А еще постараюсь сформулировать условия, которые необходимы для нахождения причин возникновения ошибок обработки данных в системе.

Текст про особенности поиска багов был бы пустым без конкретных примеров, поэтому под катом вас ждет разбор случая, который как-то произошел в нашей лаборатории при тестировании производительности СХД.

+17

indmitriev 6 мар в 10:41

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Средний

10 мин

2.6K

Блог компании VKБлог компании СберХранение данных*Хранилища данных*Hadoop*

Кейс

Для запуска и эксплуатации высоконагруженных ИТ-решений с петабайтами данных в активе, нужно проработанное решение, позволяющее гибко управлять ресурсами. Одним из критичных аспектов этого решения, является разделение Compute & Storage — разделение ресурсов инфраструктуры под вычисление и хранение соответственно. Если не реализовать такое разделение в крупном проекте, инфраструктура рискует превратиться в «чемодан без ручки» — эффективность использования ресурсов будет низкой, а сложность управления ресурсами и средами будет высока. На примере команды SberData и их корпоративной аналитической платформы я расскажу, когда требуется разделение Compute & Storage и как это реализовать максимально нативно.

Статья подготовлена по мотивам доклада на VK Data Meetup «Как разделить Compute & Storage в Hadoop и не утонуть в лавине миграций».

+16

SergeyProkhorenko 24 фев в 10:48

UUIDv7

Средний

3 мин

12K

Высокая производительность*Анализ и проектирование систем*IT-стандарты*Big Data*Хранилища данных*

Обзор

Седьмая версия UUID (Universally Unique Identifier Version 7, UUID Version 7, UUIDv7) является модифицированной и стандартизованной версией ULID. Проект стандарта (далее стандарт) находится в ожидании окончательной проверки редактором. Но уже имеется большое количество реализаций UUIDv7, применяемых в действующих информационных системах. В интернете доступно большое количество информации по ключевому слову UUIDv7.

+13

nike_ilin 18 фев в 09:30

7 направлений оптимизации ClickHouse, которые помогают в BI

Средний

12 мин

9.9K

Блог компании VisiologyBig Data*Визуализация данных*Хранение данных*Хранилища данных*

Кейс

Из песочницы

Привет, Хабр! Меня зовут Никита Ильин, я занимаюсь разработкой архитектуры BI-платформы Visiology. Сегодня мы поговорим про оптимизацию ClickHouse — ведущей СУБД, которую все чаще используют для решения задач аналитики на больших объемах данных. В этой статье я расскажу, почему важно оптимизировать ClickHouse, в каких направлениях это можно делать, и почему разумный подход к размещению информации, кэшированию и индексированию особенно важен с точки зрения производительности BI-платформы. Также мы поговорим о том, к каким нюансам нужно готовиться, если вы решаете оптимизировать CH самостоятельно, сколько времени и сил может потребовать этот процесс и почему мы решили “зашить” в новый движок ViQube 2 десятки алгоритмов автоматической оптимизации.

А что там с оптимизацией ClickHouse?

+25

nike_ilin 18 фев в 09:30

7 направлений оптимизации ClickHouse, которые помогают в BI

Средний

12 мин

9.9K

Блог компании VisiologyBig Data*Визуализация данных*Хранение данных*Хранилища данных*

Кейс

Из песочницы

А что там с оптимизацией ClickHouse?

+25

Xcom-shop 16 фев в 10:53

Побит новый рекорд емкости HDD. 30 ТБ и 400 градусов Цельсия внутри

Простой

3 мин

17K

Блог компании Группа компаний X-ComХранение данных*Хранилища данных*Компьютерное железоНакопители

Обзор

Многие задаются вопросом, как хранить данные дома или на работе. Надо же не только установить систему на жесткий диск, но еще куда-то сложить несколько сезонов любимого сериала, фотографии друзей и родных, видео с котиками, да и для игр тоже нужно много места. А если вы работаете с большими объемами информации, то проблем становится еще больше. Но еще более требовательными являются центры обработки данных. И всем нужны большие накопители. Seagate представила самый большой жесткий диск, и его характеристики действительно впечатляют.

+12

artvi 15 фев в 09:00

В поисках ПАК: импортозамещаем немецкое «железо» в российском ЦОД

Средний

5 мин

6.2K

Блог компании Oxygen Cloud PlatformИнформационная безопасность*Виртуализация*Хранение данных*Хранилища данных*

Обзор

Привет, Хабр! Меня зовут Артем, я инженер по виртуализации в Oxygen Data Centres & Clouds. Любой облачный провайдер и оператор ЦОД может столкнуться с задачей проброса USB-портов виртуальным машинам, которым нужен доступ к определенным устройствам. И чем серьезнее требования к безопасности этих флешек – тем сложнее реализовать такое решение на практике. Сегодня я расскажу о нашем пути к выбору ПАК (программно-аппаратного комплекса) для решения задач с флешками и чем нас обрадовало найденное российское решение, когда немцы решили больше не поставлять свою технику.

+25

randall 13 фев в 14:21

Бэкапы исторических масштабов — как человечество сохраняет большие объемы данных?

Простой

7 мин

3.8K

Блог компании CloudMTSБлог компании МТСХранение данных*Хранилища данных*Научно-популярное

Обзор

Корпоративные решения для синхронизации, резервного копирования и безопасного обмена файлами легко позволяют отправлять большие данные в облако. Но что, если нам необходимо собрать и сохранить грандиозный объем данных — например, записать историю человеческой цивилизации? Как это сделать, насколько надежны цифровые носители, есть ли конкурентноспособные альтернативы?

Сегодня поговорим о проектах, посвященных созданию массивных архивов и бэкапов, и роли систем ИИ в подобных задачах.

Читать дальше →

+12

Hanamime 7 фев в 16:06

Подводные дата-центры и хранение информации в QR-кодах: новшества индустрии ЦОД

Простой

5 мин

1.6K

Блог компании СберХранение данных*Хранилища данных*

Обзор

По данным TAdviser, в России зафиксирован небывалый «бум» строительства ЦОДов. Схожая картина наблюдается и в остальных странах: по итогам 2022 года общий объем данных в мире составил 97 зеттабайт, в 2023 году — 110-120 зеттабайт, а к 2025 году — прогноз вплоть до 180-ти. Всю эту информацию нужно где-то обрабатывать и хранить — потребность в дата-центрах растет ежемесячно. По данным «Коммерсанта», спрос на услуги дата-центров в значительной степени превышает предложение. Именно поэтому на сферу направлено сейчас пристальное внимание, а где внимание, там и высокие технологии.

+14

CyberPaul 6 фев в 10:33

От перфокарт в облако. Где вы хранили файлы десятилетие назад?

Простой

7 мин

1.9K

Блог компании ServerspaceIT-инфраструктура*Хранение данных*Хранилища данных*История IT

Ретроспектива

В годы моей бурной юности в ходу были пятидюймовые дискеты. Их и вправду можно было назвать “floppy”, то есть, гибкими — футляр из плотного коленкора довольно легко сгибался, пробивался степлером и даже с некоторым усилием сворачивался в трубку. Перфокарты я тоже застал — родители иногда приносили их домой из вычислительного центра, в котором работали, и маленький я рисовал на этих забавных карточках с напечатанными типографским способом рядами цифр (и совой, сова с надписью «КАНГАС» почему-то накрепко засела в памяти) короткими фломастерами от плоттеров-графопостроителей, которые в ассортименте добывались там же, в ВЦ. Сейчас, используя многогигабайтовое облако, смешно вспоминать эту бумажную карточку емкостью 80 байт. Зато можно сказать, что эволюцию носителей информации от перфокарт к облаку я увидел собственными глазами.

Читать дальше →

+13

big-mdm 3 фев в 16:49

Что нового в IMSProg?

Простой

2 мин

2.7K

C*Хранилища данных*Производство и разработка электроники*

Обзор

Пару месяцев назад я писал историю создания программатора микросхем CH341a для Linux систем. Благодаря вашим отзывам и комментариям программа изменилась, надеюсь в лучшую сторону.

+33

Beeline_tech 25 янв в 14:39

Что находится внутри физического Архива Интернета

4 мин

14K

Блог компании билайнХранение данных*Хранилища данных*История IT

Обзор

Перевод

Когда я был в Сан-Франциско на AI Engineer Summit, то воспользовался возможностью посетить Архив Интернета — физический архив в калифорнийском городе Ричмонде примерно в двадцати минутах езды от Сан-Франциско.

Я купил билет на «экскурсию по закулисью физического архива» 11 октября и прибыл прямо перед началом; я был рад, что не приехал раньше, потому что физический архив находится (вполне логично) на складе в промышленной части Ричмонда. Похоже, больше ничего интересного в окрестностях нет.

Я попросил водителя Uber подбросить меня до парковки со знаком Internet Archive. Но оглядевшись, я не смог найти публичного входа на склад. Рядом стояло ещё несколько озадаченных фанатов истории Интернета, мы неуклюже поздоровались и начали обсуждать, там ли находимся. Вскоре нас заметила пара людей в конце улицы и помахала нам.

Читать дальше →

+77

ru_vds 23 янв в 12:00

Для чего подходит ультрадешёвый сервер за 130 рублей

Простой

6 мин

50K

Блог компании RUVDS.comХостингСерверное администрирование*Хранилища данных*Софт

Обзор

В рекламе RUVDS постоянно упоминаются дешёвые VPS-серверы «за 130 рублей в месяц». Но многие думают, что это маркетинговый трюк: такие серверы может и есть, но только для рекламы, чтобы предложение звучало красиво, а в реальности они совершенно непригодны. Ну что может сервер с 512 МБ оперативной памяти? Конечно же, ничего. На него даже операционка не встанет…

В реальности всё совсем иначе. На этот сервер ставятся разные дистрибутивы Linux, задачи он выполняет реальные, и вы даже получаете выделенный IP-адрес.

Читать дальше →

+77

135

Dmitrii43 11 янв в 10:00

Неинвазивный мониторинг ЦОД: повышаем надежность и снижаем затраты

Простой

5 мин

3.3K

Блог компании Wiren BoardIT-инфраструктура*Серверное администрирование*Хранилища данных*Инженерные системы*

В центрах обработки данных используется оборудование от разных вендоров, с различными встроенными системами мониторинга. Когда таких систем становится много, уследить за подобным «зоопарком» непросто.

Но как сделать систему мониторинга, которая будет работать в любом автозале, независимо от оборудования?

Как установить такую систему неинвазивно, то есть не вмешиваясь в работу автозала? Как сделать так, чтобы не просто увидеть все события в автозале, но и повысить эффективность энергопотребления? И как при этом не пробить брешь в системе защиты от злоумышленников?

В статье мы как раз рассмотрим такое решение на примере автозала телекоммуникационной компании в Санкт-Петербурге. Интересно? Ныряйте под кат

+12

Albert_Wesker 28 дек 2023 в 17:01

Построение архитектур для обработки данных в режиме реального времени при помощи Apache Kafka, Flink и Druid

Сложный

11 мин

8.1K

Блог компании Timeweb CloudСистемное администрирование*IT-инфраструктура*Apache*Хранилища данных*

Обзор

Перевод

Командам, которые занимаются обработкой данных (поступающих пакетными партиями в рабочих потоках) сложно соответствовать современным требованиям по обработке данных в режиме реального времени. Почему? Потому что пакетный поток данных – от доставки данных до их дальнейшей обработки и анализа – это такая вещь, при работе с которой нужно уметь ждать.

Требуется ждать тех данных, которые пойдут на отправку в ETL-инструмент, дожидаться, пока будет обработана куча данных, ждать, пока информация будет загружена в хранилище данных и даже ждать, пока закончат выполняться сделанные запросы.

Но в опенсорсном пространстве есть решение, разработанное в опенсорсе. В сочетании друг с другом Apache Kafka, Flink и Druid, позволяют создать архитектуру для обработки данных, которая работает в режиме реального времени и позволяет исключить все эти этапы ожидания. В этом посте мы исследуем, как комбинация этих инструментов позволяет создавать широкий спектр приложений для обработки данных в режиме реального времени.

Читать дальше →

+18

2 3 ...

32 33

Хранилища данных *

Как мы переносили базу Clickhouse между географически удаленными дата-центрами

Новости

Оптимизируем параметры запуска приложения Spark. Часть первая

Почему люди не делают бэкапы?

ClickHouse как бэкенд для Prometheus

Истории

HDD, SSD или NVMe: что выбрать для виртуального сервера (тесты внутри)

Уравнение с тремя неизвестными: как отлавливать баги в системах хранения данных

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

UUIDv7

7 направлений оптимизации ClickHouse, которые помогают в BI

7 направлений оптимизации ClickHouse, которые помогают в BI

Побит новый рекорд емкости HDD. 30 ТБ и 400 градусов Цельсия внутри

В поисках ПАК: импортозамещаем немецкое «железо» в российском ЦОД

Бэкапы исторических масштабов — как человечество сохраняет большие объемы данных?

Ближайшие события

Подводные дата-центры и хранение информации в QR-кодах: новшества индустрии ЦОД

От перфокарт в облако. Где вы хранили файлы десятилетие назад?

Что нового в IMSProg?

Что находится внутри физического Архива Интернета

Для чего подходит ультрадешёвый сервер за 130 рублей

Неинвазивный мониторинг ЦОД: повышаем надежность и снижаем затраты

Построение архитектур для обработки данных в режиме реального времени при помощи Apache Kafka, Flink и Druid

Вклад авторов