Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Статьи Посты Новости Авторы Компании

divolko3 3 авг 2023 в 16:56

На рынке жёстких дисков появились HDD с очень большой ёмкостью. Но рынку это вряд ли поможет

3 мин

29K

Блог компании МТСIT-инфраструктура*Хранилища данных*Компьютерное железоНакопители

Компания Seagate объявила о старте поставок жёстких дисков с ёмкостью от 30 ТБ. На данный момент это только начало, основной объём поставок запланирован на конец этого года. Диски разработаны по технологии HAMR, которая и позволяет достичь очень большой ёмкости. Но, скорее всего, это будет нишевый продукт для корпоративного использования, а рынку HDD эта новинка вряд ли поможет.

+24

239

randall 1 авг 2023 в 16:20

Как потерять друзей и заставить всех тебя ненавидеть: еще несколько историй о важности бэкапов

Простой

6 мин

6.5K

Блог компании CloudMTSБлог компании МТСРезервное копирование*Хранение данных*Хранилища данных*

Ретроспектива

Ежегодно происходят десятки крупных утечек или технических сбоев, приводящих к потере данных. От них страдают производственные предприятия, государственные организации, мессенджеры, рестораны и разработчики программного обеспечения. В начале мая с этой проблемой столкнулась команда ChatGPT, когда из-за бага в open source библиотеке чат-бот стал раскрывать персональные данные пользователей.

Очевидно, что инциденты, связанные с потерей данных, наносят репутационный ущерб. Долгоиграющий сбой или крупная утечка отталкивает потенциальных партнеров и новых клиентов от сотрудничества. Оценить эти потери довольно сложно, зато можно подсчитать, сколько денег уходит на восстановление и отладку инфраструктуры.

Сегодня обсудим разные инциденты, связанные с потерей данных: от масштабных и разрушительных до нелепых.

Читать дальше →

+18

Digital_League 31 июл 2023 в 15:02

Получаем данные из «Яндекс.Метрики» в электронные таблицы и BI: пошаговая инструкция

11 мин

5.5K

Блог компании Лига Цифровой ЭкономикиPython*Хранение данных*Хранилища данных*

Стандартный интерфейс «Яндекс.Метрики» позволяет анализировать данные о посетителях сайта и их поведении достаточно подробно. Тем не менее, для решения задач глубокой аналитики (про это я рассказывал здесь) стандартного функционала может оказаться недостаточно.

К тому же многим аналитикам привычнее и зачастую нужнее проводить аналитику в электронных таблицах (Excel, Google Sheet) или BI. Да, можно выгружать отчеты из «Метрики» сначала в Excel-файлы. Но на таком полуручном режиме оперативной и эффективной аналитики особо не построишь.

Меня зовут Андрей Устьянцев, я ведущий аналитик направления Big Data в Лиге Цифровой Экономики. В этой статье я пошагово распишу, как получать данные из «Яндекс.Метрики» в электронные таблицы (Excel, Google Sheet) и BI в автоматическом режиме.

innokenty_vyz 29 июл 2023 в 12:27

Тестирование собственного NAS. Часть 2. База

14 мин

5.4K

Блог компании Third ManТестирование IT-систем*IT-инфраструктура*Хранилища данных*

В предыдущей статье мы формулировали цели и составляли список тестов для автоматизации. Далее в работе QA обычно следует разработка базовых тестов и обвязки для них, чем мы в этой статье и займёмся. Полный код проекта лежит на гитхаб и приводить его в статье мы не будем.

Дисклеймер! Это не новость, не туториал и не энциклопедическая заметка, не аккуратная статья со схемами, графиками и выверенной структурой. Дело в том, что проект NAS мы делаем по фану и в свободное от основной работы время. Как следствие, ресурсов на разработку не много, а энтузиазм и внутренняя дисциплина не всесильны. Ответственность перед аудиторией Хабра подталкивает что-то делать, перепроверять свои идеи, избегать халтуры, проводить ревью результатов работы, да и просто глубже вникать в суть.

По этим причинам мы попробуем вести на Хабре дневник разработки. Может кто-то почерпнёт тут идеи для своих проектов, а мы в свою очередь сумеем раньше прислушаться к мнению аудитории и улучшим свои решения.

KNagorny 28 июл 2023 в 10:51

Топ-5 ошибок проектировщиков ЦОД

Средний

9 мин

Блог компании LinxХранилища данных*Управление проектами*Инженерные системы*

FAQ

После выхода статьи «Топ-5 ошибок потребителей услуг ЦОД» к нам стали поступать просьбы продолжить цикл и рассказать про типовые ошибки проектировщиков и служб эксплуатации ЦОД. Почему бы и нет? Но сразу стоит заметить, что клиентов у ЦОД Linxdatacenter много, поэтому выявить самые распространенные тенденции было несложно, а вот выборка по ошибкам проектировщиков и служб эксплуатации у нас намного меньше хотя бы потому, что взаимодействуем мы с ними намного реже. Однако несколько типичных моментов выделить можно. В этой статье расскажем про ошибки проектировщиков ЦОД, с которыми нам довелось столкнуться.

nmgtech 27 июл 2023 в 14:00

Как на самом деле Linux выполняет запись на диск?

6 мин

27K

Блог компании Национальная Медиа Группа*nix*Хранение данных*Хранилища данных*

Перевод

Друзья мои, программисты и операторы, я бы хотел поговорить о том, как в Linux работает запись файлов.

Раньше я думал, что она устроена определённым образом, и как Джон Леннон, «I’m not the only one». Оказалось, операции записи работают совершенно иначе. То, как они работают, интересно и важно знать.

Позвольте начать с того, как я раньше думал о записи файлов.

+44

113

radachynskaja 24 июл 2023 в 14:43

Обновление Дельта BI. ChatGPT, PixelPerfect, коннекторы и визуализации

Средний

5 мин

1.2K

Big Data*Визуализация данных*Хранение данных*Хранилища данных*

Обзор

Совсем недавно вышло обновление платформы для бизнес-аналитики Дельта BI с решениями, знаковыми для всей отрасли. Учитывая нашу реальность и недоступность глобальных продуктов, обновление ощутимо увеличивает отрыв Дельта BI от ближайших конкурентов на российском рынке. Показываем и рассказываем, почему.

-2

Amina_Zubairova 21 июл 2023 в 15:47

Алгоритм быстрого поиска при помощи хэширования

5 мин

Занимательные задачкиC++*Алгоритмы*Хранение данных*Хранилища данных*

Из песочницы

В этой статье я хочу представить мой алгоритм оптимизации суммирования ряда чисел в массиве (на примере контейнера map).

Итак, дано задание

Есть некая электронная книга, которую одновременно читает неограниченное количество читателей. Нужно сделать так, чтобы любой читатель в любой момент мог проверить, сколько еще читателей читают ту же страницу, что и он. Предложена наивное решение хранить в map<int,int> в качестве ключа номера страниц, в качестве значения- количество прочитавших их пользователей. Конечно, при таком подходе программа медленно работает с большими тестами потому, что количество итераций по контейнеру map равняется числу прочитанных пользователем страниц. То есть, если пользователь прочел 1000 страниц из 1000 возможных, то в цикле нужно будет сделать 1000 итераций, и это сильно замедляет программу.

Чтобы уменьшить время работы программы, нужно упростить алгоритм подсчета пользователей. В этом алгоритме я отдельно считаю, сколько пользователей прочли столько же полных сотен страниц, как и искомый читатель, и затем уже постранично суммирую всех, кто прочел столько же страниц из той сотни, на которой сейчас находится читатель. Такой алгоритм позволяет вместо 999 итераций (если пользователь читает 999-ю страницу) сделать всего 108 (9 итераций сотням и 99 по единичным страницам).

Это вкратце, теперь перейдем к подробному описанию и для начала приведу код.

больше информации

-3

Sapienssolutions 21 июл 2023 в 14:23

Как мы снизили нагрузку на SAP HANA незаметно для пользователей

Средний

5 мин

Блог компании Sapiens solutionsBig Data*Визуализация данных*Хранение данных*Хранилища данных*

Туториал

Объем информации в корпоративном хранилище данных (КХД) со временем неизбежно начинает превышать запланированные изначально мощности. Обычно эта проблема решается тем, что докупаются недостающие мощности (будет дорого). Когда с такой ситуацией столкнулся наш клиент, мы предложили ему другое решение. Оно позволило сэкономить бюджеты и сделать переходный период максимально безболезненным.

Читайте, что именно мы сделали и какой был результат.

Dmytro_Kikot 19 июл 2023 в 10:00

ДНК-хранилище данных: живая цифровая камера

14 мин

1.6K

Блог компании ua-hosting.companyМашинное обучение*Хранилища данных*Научно-популярноеБиология

Что современный человек производит в большом количестве? Защитники экологии ответят — отходов, исследователи демографии скажут — самих себя, а знатоки цифрового мира — данных. По приблизительной оценке к 2025 году объемы цифровых данных во всем мире превысят отметку в 175 зетабайт. Вполне ожидаемый вопрос заключается в том, где хранить все эти данные? Кто-то предлагает использовать воду, кто-то продолжает работать над совершенствованием имеющихся носителей, но самым интригующим вариантом являются биологические системы, а именно ДНК. Разработки в области хранения данных на ДНК сопряжены с рядом проблем, корень которых лежит в дороговизне и сложности производства нитей ДНК вне клетки. Ученые из Национального университета Сингапура предлагают решение проблем в виде нового ДНК-хранилища, названного BacCam, где задействованы живые клетки. Из чего сделано BacCam, как оно работает, и что делает его лучше других ДНК-хранилищ? Ответы на эти вопросы мы найдем в докладе ученых.

Читать дальше →

+14

Alek_Che 13 июл 2023 в 17:07

Архитектура аналитической платформы Modus: ETL

Средний

5 мин

2.1K

Блог компании Modus BIАнализ и проектирование систем*Data Mining*Хранение данных*Хранилища данных*

Обзор

Начинаем цикл статей об архитектуре аналитических платформ. Поговорим об общем устройстве и подробнее остановимся на анатомии ETL на примере Modus. Вы узнаете, из каких компонентов состоит аналитическая система, откуда она получает и как работает с данными, и что мы в Modus делаем такого, чтобы оптимизировать эти процессы.

cupraer 7 июл 2023 в 14:41

Типичная задача на собеседовании: URL Shortener

Средний

6 мин

35K

IT-инфраструктура*Usability*Accessibility*Хранилища данных*

Кейс

Recovery Mode

Один из моих знакомых недавно сходил на собеседование, на котором его попросили спроектировать укорачиватель ссылок. Он растерялся и задачу — как хотел интервьюер — не осилил, а потом нашел в интернете популярное решение и попросил меня прокомментировать. Полная формулировка поставленной проблемы: «Как бы вы разработали службу сокращения URL-адресов, подобную TinyURL?»

К моему сожалению, я — человек любознательный, поэтому я не закрыл окно чата, а пошел почитать, как принято в высшем свете такую задачу нынче решать. То, что я увидел, заставило меня набросать свою собственную архитектурку, потому что даже в страшном сне согласиться с предложенным по ссылке дизайном — не вариант. В тексте ниже я заочно дискутирую с автором решения по ссылке выше.

+15

qlever 7 июл 2023 в 13:29

Как настроить подключение к ClickHouse в FineBI V6.0?

Простой

2 мин

1.1K

Визуализация данных*Хранилища данных*

Туториал

В последнее время в работе часто сталкиваюсь с вопросом про подключение FineBI V6.0 к ClickHouse - столбцовой системе управления базами данных (СУБД) для онлайн обработки аналитических запросов (OLAP). Ловите пошаговую инструкцию.

ChernovAF 7 июл 2023 в 10:13

Как мы упростили жизнь высоконагруженным сервисам с Platform V SessionsData. Часть 3

Средний

5 мин

1.1K

Блог компании СберАнализ и проектирование систем*Хранилища данных*Облачные сервисы*Микросервисы*

Привет, Хабр! С вами Андрей Чернов — Java-архитектор микросервисов в СберТехе.

Это третья часть материала про то, как мы развиваем Platform V SessionsData — высокопроизводительное распределённое in-memory хранилище для общего контекста сессионных запросов key-value. В первой части я рассказал, почему мы решили создать собственный микросервис, а во второй — как нам удаётся достигать высокой доступности сервиса. Сегодня поговорим о том, какие наработки помогут нам и дальше развивать Platform V SessionsData.

innokenty_vyz 6 июл 2023 в 15:19

Тестирование собственного NAS. Какие тесты нужны?

Простой

13 мин

9.8K

Блог компании Third ManТестирование IT-систем*IT-инфраструктура*Хранилища данных*

К сожалению любая разработка, даже если она ведётся просто по фану, рано или поздно сталкивается с необходимостью формализовать процессы и подходы. С этой проблемой столкнулись и мы. Сравнение производительности уже трёх прототипов вылилось в трату времени, громадные полотна обсуждений, споров, попыток унифицировать тесты и конфигурации стендов. А где унификация тестов, там и их автоматизация. В данной серии статей мы этим и займёмся!

+15

arusakov 5 июл 2023 в 11:25

Архитектура кеша DragonflyDB

Средний

6 мин

3.3K

Высокая производительность*Алгоритмы*Хранилища данных*

Обзор

Перевод

DragonflyDB - молодая in-memory база данных, написанная на C++ и совместимая с Redis (не форк). Под капотом используется многопоточная архитектура (в отличии от однопоточного Redis) для лучшей утилизации современных процессоров и более простого вертикального масштабирования.

Особое внимание в DragonflyDB привлекает устройство кеша и его очистки, которая должна превосходить известные LRU и LFU политики.

randoom 28 июн 2023 в 12:50

Переизобретаем сжатие в распределенной базе данных

4 мин

2.4K

Блог компании СберВысокая производительность*Big Data*Хранилища данных*

Обзор

В используемой нами базе данных уже была эффективная функциональность сжатия, которая обеспечивала хранение объемной информации.

Но рост объема хранимых данных — не единственный возможный выигрыш от применения сжатия, поэтому мы задумались о разработке собственного решения.

В этой статье расскажу, как мы изменили подход к сжатию данных, чем пришлось пожертвовать и почему менее эффективное «на бумаге» решение в результате превзошло наши ожидания.

atshaman 26 июн 2023 в 19:22

Что такое «хорошо» и что такое «плохо» в NiFi. Часть 2

Простой

5 мин

2.4K

Блог компании ЦифраApache*Хранилища данных*

Мониторинг

Продолжаем разговор о том, что в NiFi делать можно и нужно, а что можно, но лучше не стоит. Если вы пропустили первую часть разговора, то вам сюда. Там про улучшение читаемости схем и повышение производительности (ну почти). Здесь же пойдет речь о том, как проводить мониторинг бизнес-части схемы, чтобы всем было хорошо (ну или чтобы не было плохо), ну и немного о переносимости процессоров. Поехали!

Есть мнение, что хуже всего — не вести мониторинг бизнес-части схемы совсем, используя популярный подход «и так сойдет!». Но если подумать, есть одна вещь хуже отсутствия мониторинга — неправильный мониторинг.

KNagorny 26 июн 2023 в 10:56

Топ-5 ошибок потребителей услуг ЦОД

Средний

7 мин

2.5K

Блог компании LinxХранилища данных*Инженерные системы*

FAQ

Потребители услуг ЦОД всегда предъявляют серьезные требования к инфраструктуре, проверяют проект, сертификаты, фактические уровни резервирования, проводят аудиты процессов эксплуатации, убеждаясь, что ЦОД соответствует заявленному уровню надежности, и в итоге платят за эту надежность немаленькие деньги. Однако есть важные моменты, которые нередко оказываются упущенными из вида, а их игнорирование может обесценить все преимущества отказоустойчивой инфраструктуры ЦОД.

В данной статье мы собрали список вопросов, на которые обязательно нужно обращать внимание при размещении оборудования в ЦОД.

avtozavodetz 22 июн 2023 в 12:00

Как вывести миллиарды ключей из ScyllaDB

Средний

9 мин

2.3K

Блог компании STM LabsВысокая производительность*Big Data*Хранение данных*Хранилища данных*

Кейс

Мечтал ли я когда-либо ворочать миллиардами? Честно признаюсь, да. И нельзя сказать, что Вселенная меня не услышала. Вот только я никак не имел в виду миллиарды записей в базе данных...

Ранее я уже писал о нашем опыте использования ScyllaDB в качестве архивного хранилища. Разумеется, исследования и открытия, связанные с новой базой данных, для нас на этом не закончились... Создавая архив для данных, вероятность обращения к которым близка к нулю, мы, конечно, допускали, что время от времени клиенты будут просить вернуть данные обратно в оперативное хранилище. Но запрос на извлечение из архива сразу всех записей стал для нас неожиданностью. Хорошо ещё, что клиента интересовал только ключ записи, а не вся запись целиком. Тем не менее достать 10 млрд. ключей из ScyllaDB за приемлемое время звучало как челлендж. Ну надо так надо.

+15

1 2 ...

6 7

9 10 ...

56 57

Хранилища данных *

На рынке жёстких дисков появились HDD с очень большой ёмкостью. Но рынку это вряд ли поможет

Как потерять друзей и заставить всех тебя ненавидеть: еще несколько историй о важности бэкапов

Получаем данные из «Яндекс.Метрики» в электронные таблицы и BI: пошаговая инструкция

Тестирование собственного NAS. Часть 2. База

Топ-5 ошибок проектировщиков ЦОД

Как на самом деле Linux выполняет запись на диск?

Обновление Дельта BI. ChatGPT, PixelPerfect, коннекторы и визуализации

Алгоритм быстрого поиска при помощи хэширования

Как мы снизили нагрузку на SAP HANA незаметно для пользователей

ДНК-хранилище данных: живая цифровая камера

Архитектура аналитической платформы Modus: ETL

Типичная задача на собеседовании: URL Shortener

Как настроить подключение к ClickHouse в FineBI V6.0?

Ближайшие события

Как мы упростили жизнь высоконагруженным сервисам с Platform V SessionsData. Часть 3

Тестирование собственного NAS. Какие тесты нужны?

Архитектура кеша DragonflyDB

Переизобретаем сжатие в распределенной базе данных

Что такое «хорошо» и что такое «плохо» в NiFi. Часть 2

Топ-5 ошибок потребителей услуг ЦОД

Как вывести миллиарды ключей из ScyllaDB

Вклад авторов