Как стать автором
Обновить
47.1

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
Порог рейтинга
Уровень сложности

На рынке жёстких дисков появились HDD с очень большой ёмкостью. Но рынку это вряд ли поможет

Время на прочтение3 мин
Количество просмотров29K

Компания Seagate объявила о старте поставок жёстких дисков с ёмкостью от 30 ТБ. На данный момент это только начало, основной объём поставок запланирован на конец этого года. Диски разработаны по технологии HAMR, которая и позволяет достичь очень большой ёмкости. Но, скорее всего, это будет нишевый продукт для корпоративного использования, а рынку HDD эта новинка вряд ли поможет.

Читать далее
Всего голосов 28: ↑26 и ↓2+24
Комментарии239

Как потерять друзей и заставить всех тебя ненавидеть: еще несколько историй о важности бэкапов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров6.5K
image

Ежегодно происходят десятки крупных утечек или технических сбоев, приводящих к потере данных. От них страдают производственные предприятия, государственные организации, мессенджеры, рестораны и разработчики программного обеспечения. В начале мая с этой проблемой столкнулась команда ChatGPT, когда из-за бага в open source библиотеке чат-бот стал раскрывать персональные данные пользователей.

Очевидно, что инциденты, связанные с потерей данных, наносят репутационный ущерб. Долгоиграющий сбой или крупная утечка отталкивает потенциальных партнеров и новых клиентов от сотрудничества. Оценить эти потери довольно сложно, зато можно подсчитать, сколько денег уходит на восстановление и отладку инфраструктуры.

Сегодня обсудим разные инциденты, связанные с потерей данных: от масштабных и разрушительных до нелепых.

Читать дальше →
Всего голосов 20: ↑19 и ↓1+18
Комментарии5

Получаем данные из «Яндекс.Метрики» в электронные таблицы и BI: пошаговая инструкция

Время на прочтение11 мин
Количество просмотров5.5K

Стандартный интерфейс «Яндекс.Метрики» позволяет анализировать данные о посетителях сайта и их поведении достаточно подробно. Тем не менее, для решения задач глубокой аналитики (про это я рассказывал здесь) стандартного функционала может оказаться недостаточно. 

К тому же многим аналитикам привычнее и зачастую нужнее проводить аналитику в электронных таблицах (Excel, Google Sheet) или BI. Да, можно выгружать отчеты из «Метрики» сначала в Excel-файлы. Но на таком полуручном режиме оперативной и эффективной аналитики особо не построишь.

Меня зовут Андрей Устьянцев, я ведущий аналитик направления Big Data в Лиге Цифровой Экономики. В этой статье я пошагово распишу, как получать данные из «Яндекс.Метрики» в электронные таблицы (Excel, Google Sheet) и BI в автоматическом режиме. 

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Тестирование собственного NAS. Часть 2. База

Время на прочтение14 мин
Количество просмотров5.4K

В предыдущей статье мы формулировали цели и составляли список тестов для автоматизации. Далее в работе QA обычно следует разработка базовых тестов и обвязки для них, чем мы в этой статье и займёмся. Полный код проекта лежит на гитхаб и приводить его в статье мы не будем.

Дисклеймер! Это не новость, не туториал и не энциклопедическая заметка, не аккуратная статья со схемами, графиками и выверенной структурой. Дело в том, что проект NAS мы делаем по фану и в свободное от основной работы время. Как следствие, ресурсов на разработку не много, а энтузиазм и внутренняя дисциплина не всесильны. Ответственность перед аудиторией Хабра подталкивает что-то делать, перепроверять свои идеи, избегать халтуры, проводить ревью результатов работы, да и просто глубже вникать в суть.

По этим причинам мы попробуем вести на Хабре дневник разработки. Может кто-то почерпнёт тут идеи для своих проектов, а мы в свою очередь сумеем раньше прислушаться к мнению аудитории и улучшим свои решения.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии4

Топ-5 ошибок проектировщиков ЦОД

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров3K

После выхода статьи «Топ-5 ошибок потребителей услуг ЦОД» к нам стали поступать просьбы продолжить цикл и рассказать про типовые ошибки проектировщиков и служб эксплуатации ЦОД. Почему бы и нет? Но сразу стоит заметить, что клиентов у ЦОД Linxdatacenter много, поэтому выявить самые распространенные тенденции было несложно, а вот выборка по ошибкам проектировщиков и служб эксплуатации у нас намного меньше хотя бы потому, что взаимодействуем мы с ними намного реже. Однако несколько типичных моментов выделить можно. В этой статье расскажем про ошибки проектировщиков ЦОД, с которыми нам довелось столкнуться.

Читать далее
Всего голосов 10: ↑9 и ↓1+8
Комментарии2

Как на самом деле Linux выполняет запись на диск?

Время на прочтение6 мин
Количество просмотров27K

Друзья мои, программисты и операторы, я бы хотел поговорить о том, как в Linux работает запись файлов.

Раньше я думал, что она устроена определённым образом, и как Джон Леннон, «I’m not the only one». Оказалось, операции записи работают совершенно иначе. То, как они работают, интересно и важно знать.

Позвольте начать с того, как я раньше думал о записи файлов.

Читать далее
Всего голосов 82: ↑63 и ↓19+44
Комментарии113

Обновление Дельта BI. ChatGPT, PixelPerfect, коннекторы и визуализации

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.2K

Совсем недавно вышло обновление платформы для бизнес-аналитики Дельта BI с решениями, знаковыми для всей отрасли. Учитывая нашу реальность и недоступность глобальных продуктов, обновление ощутимо увеличивает отрыв Дельта BI от ближайших конкурентов на российском рынке. Показываем и рассказываем, почему.

Читать далее
Всего голосов 2: ↑0 и ↓2-2
Комментарии0

Алгоритм быстрого поиска при помощи хэширования

Время на прочтение5 мин
Количество просмотров3K

В этой статье я хочу представить мой алгоритм оптимизации суммирования ряда чисел в массиве (на примере контейнера map). 

Итак, дано задание

Есть некая электронная книга, которую одновременно читает неограниченное количество читателей. Нужно сделать так, чтобы любой читатель в любой момент мог проверить, сколько еще читателей читают ту же страницу, что и он. Предложена наивное решение хранить в map<int,int> в качестве ключа номера страниц, в качестве значения- количество прочитавших их пользователей. Конечно, при таком подходе программа медленно работает с большими тестами потому, что количество итераций по контейнеру map равняется числу прочитанных пользователем страниц. То есть, если пользователь прочел 1000 страниц из 1000 возможных, то в цикле нужно будет сделать 1000 итераций, и это сильно замедляет программу.  

Чтобы уменьшить время работы программы, нужно упростить алгоритм подсчета пользователей. В этом алгоритме я отдельно считаю, сколько пользователей прочли столько же полных сотен страниц, как и искомый читатель, и затем уже постранично суммирую всех, кто прочел столько же страниц из той сотни, на которой сейчас находится читатель. Такой алгоритм позволяет вместо 999 итераций (если пользователь читает 999-ю страницу) сделать всего 108 (9 итераций сотням и 99 по единичным страницам). 

 Это вкратце, теперь перейдем к подробному описанию и для начала приведу код.

больше информации
Всего голосов 3: ↑0 и ↓3-3
Комментарии12

Как мы снизили нагрузку на SAP HANA незаметно для пользователей

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2K

Объем информации в корпоративном хранилище данных (КХД) со временем неизбежно начинает превышать запланированные изначально мощности. Обычно эта проблема решается тем, что докупаются недостающие мощности (будет дорого). Когда с такой ситуацией столкнулся наш клиент, мы предложили ему другое решение. Оно позволило сэкономить бюджеты и сделать переходный период максимально безболезненным.

Читайте, что именно мы сделали и какой был результат.

Читать далее
Всего голосов 8: ↑7 и ↓1+6
Комментарии3

ДНК-хранилище данных: живая цифровая камера

Время на прочтение14 мин
Количество просмотров1.6K


Что современный человек производит в большом количестве? Защитники экологии ответят — отходов, исследователи демографии скажут — самих себя, а знатоки цифрового мира — данных. По приблизительной оценке к 2025 году объемы цифровых данных во всем мире превысят отметку в 175 зетабайт. Вполне ожидаемый вопрос заключается в том, где хранить все эти данные? Кто-то предлагает использовать воду, кто-то продолжает работать над совершенствованием имеющихся носителей, но самым интригующим вариантом являются биологические системы, а именно ДНК. Разработки в области хранения данных на ДНК сопряжены с рядом проблем, корень которых лежит в дороговизне и сложности производства нитей ДНК вне клетки. Ученые из Национального университета Сингапура предлагают решение проблем в виде нового ДНК-хранилища, названного BacCam, где задействованы живые клетки. Из чего сделано BacCam, как оно работает, и что делает его лучше других ДНК-хранилищ? Ответы на эти вопросы мы найдем в докладе ученых.
Читать дальше →
Всего голосов 14: ↑14 и ↓0+14
Комментарии2

Архитектура аналитической платформы Modus: ETL

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.1K

Начинаем цикл статей об архитектуре аналитических платформ. Поговорим об общем устройстве и подробнее остановимся на анатомии ETL на примере Modus. Вы узнаете, из каких компонентов состоит аналитическая система, откуда она получает и как работает с данными, и что мы в Modus делаем такого, чтобы оптимизировать эти процессы.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Типичная задача на собеседовании: URL Shortener

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров35K

Один из моих знакомых недавно сходил на собеседование, на котором его попросили спроектировать укорачиватель ссылок. Он растерялся и задачу — как хотел интервьюер — не осилил, а потом нашел в интернете популярное решение и попросил меня прокомментировать. Полная формулировка поставленной проблемы: «Как бы вы разработали службу сокращения URL-адресов, подобную TinyURL

К моему сожалению, я — человек любознательный, поэтому я не закрыл окно чата, а пошел почитать, как принято в высшем свете такую задачу нынче решать. То, что я увидел, заставило меня набросать свою собственную архитектурку, потому что даже в страшном сне согласиться с предложенным по ссылке дизайном — не вариант. В тексте ниже я заочно дискутирую с автором решения по ссылке выше.

Читать далее
Всего голосов 47: ↑31 и ↓16+15
Комментарии98

Как настроить подключение к ClickHouse в FineBI V6.0?

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.1K

В последнее время в работе часто сталкиваюсь с вопросом про подключение FineBI V6.0 к ClickHouse - столбцовой системе управления базами данных (СУБД) для онлайн обработки аналитических запросов (OLAP). Ловите пошаговую инструкцию.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Ближайшие события

Как мы упростили жизнь высоконагруженным сервисам с Platform V SessionsData. Часть 3

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.1K

Привет, Хабр! С вами Андрей Чернов — Java-архитектор микросервисов в СберТехе.

Это третья часть материала про то, как мы развиваем Platform V SessionsData — высокопроизводительное распределённое in-memory хранилище для общего контекста сессионных запросов key-value. В первой части я рассказал, почему мы решили создать собственный микросервис, а во второй — как нам удаётся достигать высокой доступности сервиса. Сегодня поговорим о том, какие наработки помогут нам и дальше развивать Platform V SessionsData.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии0

Тестирование собственного NAS. Какие тесты нужны?

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров9.8K

К сожалению любая разработка, даже если она ведётся просто по фану, рано или поздно сталкивается с необходимостью формализовать процессы и подходы. С этой проблемой столкнулись и мы. Сравнение производительности уже трёх прототипов вылилось в трату времени, громадные полотна обсуждений, споров, попыток унифицировать тесты и конфигурации стендов. А где унификация тестов, там и их автоматизация. В данной серии статей мы этим и займёмся!

Читать далее
Всего голосов 17: ↑16 и ↓1+15
Комментарии24

Архитектура кеша DragonflyDB

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.3K

DragonflyDB - молодая in-memory база данных, написанная на C++ и совместимая с Redis (не форк). Под капотом используется многопоточная архитектура (в отличии от однопоточного Redis) для лучшей утилизации современных процессоров и более простого вертикального масштабирования.

Особое внимание в DragonflyDB привлекает устройство кеша и его очистки, которая должна превосходить известные LRU и LFU политики.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии17

Переизобретаем сжатие в распределенной базе данных

Время на прочтение4 мин
Количество просмотров2.4K

В используемой нами базе данных уже была эффективная функциональность сжатия, которая обеспечивала хранение объемной информации.

Но рост объема хранимых данных — не единственный возможный выигрыш от применения сжатия, поэтому мы задумались о разработке собственного решения.

В этой статье расскажу, как мы изменили подход к сжатию данных, чем пришлось пожертвовать и почему менее эффективное «на бумаге» решение в результате превзошло наши ожидания.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии1

Что такое «хорошо» и что такое «плохо» в NiFi. Часть  2

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.4K

Мониторинг 

Продолжаем разговор о том, что в NiFi делать можно и нужно, а что можно, но лучше не стоит. Если вы пропустили первую часть разговора, то вам сюда. Там про улучшение читаемости схем и повышение производительности (ну почти). Здесь же пойдет речь о том, как проводить мониторинг бизнес-части схемы, чтобы всем было хорошо (ну или чтобы не было плохо), ну и немного о переносимости процессоров. Поехали!

Есть мнение, что хуже всего — не вести мониторинг бизнес-части схемы совсем, используя популярный подход «и так сойдет!». Но если подумать, есть одна вещь хуже отсутствия мониторинга — неправильный мониторинг.

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии0

Топ-5 ошибок потребителей услуг ЦОД

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.5K

Потребители услуг ЦОД всегда предъявляют серьезные требования к инфраструктуре, проверяют проект, сертификаты, фактические уровни резервирования, проводят аудиты процессов эксплуатации, убеждаясь, что ЦОД соответствует заявленному уровню надежности, и в итоге платят за эту надежность немаленькие деньги.  Однако есть важные моменты, которые нередко оказываются упущенными из вида, а их игнорирование может обесценить все преимущества отказоустойчивой инфраструктуры ЦОД.

В данной статье мы собрали список вопросов, на которые обязательно нужно обращать внимание при размещении оборудования в ЦОД.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии2

Как вывести миллиарды ключей из ScyllaDB

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.3K

Мечтал ли я когда-либо ворочать миллиардами? Честно признаюсь, да. И нельзя сказать, что Вселенная меня не услышала. Вот только я никак не имел в виду миллиарды записей в базе данных...

Ранее я уже писал о нашем опыте использования ScyllaDB в качестве архивного хранилища. Разумеется, исследования и открытия, связанные с новой базой данных, для нас на этом не закончились... Создавая архив для данных, вероятность обращения к которым близка к нулю, мы, конечно, допускали, что время от времени клиенты будут просить вернуть данные обратно в оперативное хранилище. Но запрос на извлечение из архива сразу всех записей стал для нас неожиданностью. Хорошо ещё, что клиента интересовал только ключ записи, а не вся запись целиком. Тем не менее достать 10 млрд. ключей из ScyllaDB за приемлемое время звучало как челлендж. Ну надо так надо.

Читать далее
Всего голосов 15: ↑15 и ↓0+15
Комментарии2

Вклад авторов