Хранение данных *

Что имеем, то храним

Статьи Посты Новости Авторы Компании

Bright_Translate 1 авг 2023 в 16:00

Диск — это просто куча битов

Средний

11 мин

14K

Блог компании RUVDS.com*nix*Хранение данных*Компьютерное железо

Кейс

Перевод

Доводилось ли вам слышать утверждение, что диск или память — это «просто куча битов?»
Не знаю точно, откуда эта идея пошла, но она вполне разумна и в некоторой степени рассеивает таинственный ореол вокруг компьютеров. Например, она опровергает теорию о том, что внутри моего ПК живёт очень плоский эльф.

Оказывается нет, в нём находятся биты, закодированные в электрических компонентах.

И всё же компьютеры по-прежнему хранят в себе загадочность. Что это за биты? Что они означают? Можем ли мы с ними поиграться, спарсить их, понять?

Далее я покажу вам, что всё это определённо возможно! Ради вашего развлечения я засуну руку в свой ПК, вытащу оттуда кучку битов, и мы их с вами изучим.

Читать дальше →

+55

randall 28 июл 2023 в 12:40

Сто первое руководство по мониторингу метрик в Redis

Простой

7 мин

3.5K

Блог компании CloudMTSБлог компании МТСNoSQL*Администрирование баз данных*Хранение данных*

Обзор

Перевод

Жизненно важно отслеживать проблемы с производительностью Redis. Для этого инструмента характерна низкая задержка отклика при обслуживании многочисленных запросов. Есть определенные ключевые метрики, которые можно отслеживать для контроля за производительностью вашего экземпляра Redis. В этой статье мы пройдемся по этим метрикам и рассмотрим способы их сбора с помощью встроенных в Redis инструментов.

Читать дальше →

+13

lelyakuznetsova 27 июл 2023 в 14:08

О чем расскажут на SmartData 2023

21 мин

1.5K

Блог компании JUG Ru GroupBig Data*Хранение данных*КонференцииData Engineering*

Обзор

Хорошо осенью любоваться на озёра… на озёра данных. Особенно когда про них говорит спикер Владимир Озеров. В общем, этой осенью, как и раньше, мы проведём конференцию SmartData обо всём, что важно в дата-инжиниринге: от отказоустойчивости до MLOps.

6-7 сентября пройдёт онлайн-часть, а 13-14 сентября встретимся в Москве (но все, кто не готов добраться на московскую площадку, смогут и во второй части поучаствовать удалённо).

Среди тем — и архитектура дата-платформ, и «внутренности» баз данных, и стриминг, и DataOps, и даже пара «космических» (в буквальном смысле) докладов. А среди спикеров есть те, чьи доклады уже хвалили участники прошлых SmartData — например, Максим Бабенко, Владимир Озеров, Дмитрий Аношин, Евгений Ермаков и Максим Стаценко. Все описания докладов — под катом.

Программа SmartData 2023

+17

nmgtech 27 июл 2023 в 14:00

Как на самом деле Linux выполняет запись на диск?

6 мин

27K

Блог компании Национальная Медиа Группа*nix*Хранение данных*Хранилища данных*

Перевод

Друзья мои, программисты и операторы, я бы хотел поговорить о том, как в Linux работает запись файлов.

Раньше я думал, что она устроена определённым образом, и как Джон Леннон, «I’m not the only one». Оказалось, операции записи работают совершенно иначе. То, как они работают, интересно и важно знать.

Позвольте начать с того, как я раньше думал о записи файлов.

+44

113

Sber 24 июл 2023 в 11:56

Что такое обезличивание и с чем его едят?

Простой

7 мин

Блог компании СберИнформационная безопасность*Хранение данных*

Кейс

Три года назад, весной 2020, пандемия COVID-19 только начиналась и все переходили в режим самоизоляции. Мы в один миг оказались в ситуации, когда у нас имеется огромное количество данных, доступ к которым можно получить лишь из офиса, в который, разумеется, невозможно попасть. Работать без доступа к документам нереально, нам критически необходимо продолжать размечать данные, а значит нужно разработать подход, при котором можно это делать удаленно. Именно тогда мы в очередной раз подняли тему, которая и так периодически возникала в наших обсуждениях — а так ли нам нужны настоящие данные? Ответ очевидный: нет, если мы сохраняем их вид (ФИО меняем на ФИО, адрес на адрес и т. д.). Данный процесс называется обезличиванием.

+13

CodeDroidX 15 июл 2023 в 14:21

Ping пакеты как временное хранилище данных на python raw socket

Средний

7 мин

9.7K

Децентрализованные сети*Ненормальное программирование*Python*Хранение данных*Научно-популярное

Из песочницы

Payload (данные) в ping пакете действительно есть, однако до реальной пользы им далеко - это английский алфавит (нет, я не испытываю ненависть к латинице, просто мне хотелось бы уметь редактировать это содержимое).

+54

Cloud4Y 7 июл 2023 в 11:38

Японский SSD (sardine state disk)

Простой

2 мин

11K

Блог компании Cloud4YХранение данных*Гаджеты

Обзор

В декабре 2018 японский студент-химик с ником ni28_xp опубликовал фотографию USB-накопителя, сделанной из анчоуса. Звучит максимально странно даже для Японии, не так ли?

+10

levinol 5 июл 2023 в 18:30

Нативный способ шифрования данных в Helm

Средний

9 мин

4.3K

Блог компании ИннотехХранение данных*DevOps*Kubernetes*Openshift*

Туториал

Из песочницы

Привет, Хабр! Меня зовут Миняйлов Лев, я старший разработчик и DevOps-инженер Группы "Иннотех".

Хочу поделиться решением задачи шифрования чувствительных данных в Helm, использующим встроенные функции encryptAES/decryptAES.

+10

ru_vds 5 июл 2023 в 16:39

Мониторинг — это боль

Средний

13 мин

13K

Блог компании RUVDS.comПрограммирование*Отладка*Хранение данных*

Мнение

Перевод

И все мы выполняем его неправильно (в том числе и я).

Я должен признаться. Несмотря на то, что меня много раз нанимали в том числе и благодаря моему опыту работы с платформами мониторинга, я начал его ненавидеть. Инструменты мониторинга и наблюдаемости (observability) совершают тяжкий грех: обманом заставляют людей думать, что это простая задача. Очень легко мониторить маленькое приложение или сервис. Но почти ни одно из таких решений не масштабируется.

Вместо этого мониторинг превращается в бесконечную последовательность маленьких неудач. Метрики на какое-то время исчезают, логи перестают записываться на несколько часов, веб-UI для трассировок больше не работает. Мы настраиваем эти инструменты, готовясь, что сможем о них после этого забыть, но на самом деле они требуют постоянно растущих усилий по обслуживанию. Некоторые инструменты ломаются, и их больше никто не чинит. Я слишком часто приходил в новую компанию и видел, что в ней развёрнут нелюбимый мной поломанный Jaeger.

Такое ощущение, что сейчас как никогда много инструментов мониторинга, но вперёд мы не движемся. Похоже, вместо развития упор делается на увеличение объёма выходных данных приложений для роста доходов компаний, занимающихся мониторингом. Кажется, практически никакого прогресса не происходит с принципом передачи меньшего количества логов и метрик от клиента. Я создаю всё более сложные стеки для записи огромных объёмов данных, чтобы использовать их всё меньше и меньше.

В статье я расскажу о том, что, по моему мнению, нужно делать, а также поделюсь своими надеждами и мечтами. Прошу вас убедить меня, что я не прав и что есть более качественные решения.

Читать дальше →

+46

ntsaplin 4 июл 2023 в 14:01

Почему мы не торопимся применять новые технологии

Простой

8 мин

15K

Блог компании RUVDS.comХостингСистемное администрирование*Хранение данных*Управление проектами*

В комментариях к постам про разбор аварии (тут и тут) было развёрнутое обсуждение про новые технологии в ИБП, которые можно внедрить. Коротко — мы не будем внедрять ничего ультрасверхсовременного. Потому что лучшая версия для знакомства с софтом — это 2.4. В случае MS ещё хорошо, когда за цифрами написано что-то вроде SP2. Потому что если пробовать на себе все новые технологии, то это, конечно, дико интересно и прогрессивно, но мешает бизнесу. У нас дефицит свободного времени и рук. Вот, собственно, несколько прикладных историй, почему мы не торопимся нырять в новые технологии.

Пример с новым железом, на котором может строиться вся инфраструктура, думаю, знаком всем, поэтому начну не с него, а с холивара про IPv6 против IPv4.

Протокол v6 невероятно хорош. Его писали думающие люди, он снимает море проблем интернета, он реально крут. Адреса IPv6 практически бесплатные. Они не кончаются. В свою очередь, IPv4 стоят совершенно неприличных уже денег (это вторая статья в себестоимости виртуальной машины после железа), постоянно дорожают — и, что гораздо хуже, не всегда можно взять в аренду нужное их количество. Бывает, что к нам заезжает крупный клиент, мы хотим арендовать ещё 256 адресов v4 — и блок освобождается не через 15 минут, а через несколько дней. То есть нам надо постоянно ковыряться с тем, чтобы они были.

Но при этом IPv6 ещё хуже с точки зрения реального применения. Вообще, я лично не совсем понимаю, кому сейчас он нужен. Многие наши коллеги, кто пользуется, говорят просто: «В РФ v6 нет и не будет в ближайшее время, наверное». А специалисты по ИБ ещё категоричнее: «Я его просто отрубаю от греха подальше».

Читать дальше →

+73

akhromov 4 июл 2023 в 10:01

Как предложить рынку ИТ-продукт, если пользователи еще не знают, что он им нужен

6 мин

2.1K

Блог компании ГК ЛАНИТИнформационная безопасность*Хранение данных*Управление продуктом*Облачные сервисы*

Кейс

Как показал небольшой ресерч, на Хабре представлено немало материалов об управлении развитием продукта. Много теории посвящено тому, как вывести свой проект на рынок, правильно позиционировать его и найти аудиторию. Но, как вы понимаете, когда дело доходит до практики, возникает целый ряд интересных нюансов. В этом посте в блоге ЛАНИТ я поделюсь своим опытом вывода на рынок продукта, для которого раньше не было ниши. Уверен, история создания нашего продукта с нуля окажется полезной тем, кто задумывается о продвижении своего собственного решения.

+21

ru_vds 26 июн 2023 в 16:00

Выбор структур данных для самописного текстового редактора

Средний

13 мин

10K

Блог компании RUVDS.comПрограммирование*C++*Алгоритмы*Хранение данных*

Туториал

Перевод

Программирование текстовых редакторов может быть очень интересной и сложной задачей. Типы задач, которые должны решать текстовые редакторы, варьируются от тривиальных до невероятно трудных. Недавно я занимался переработкой внутренних структур данных редактора, над которым я работаю. В частности, самой фундаментальной для любого текстового редактора структуры данных: текста.

Ресурсы

Прежде чем мы приступим к разбору того, что я сделал, важно упомянуть очень полезные ресурсы для создания собственного текстового редактора:

Build Your Own Text Editor — наверно, самый фундаментальный пост о создании текстового редактора с нуля, который я видел. Это превосходный туториал на случай, если вы хотите начать писать собственный текстовый редактор. Стоит заметить, что в редакторе из этого туториала в качестве внутренней структуры для текста используется, по сути, вектор строк.
Text Editor: Data Structures — отличный обзор множества структур данных, которые можно использовать при реализации текстового редактора. (Спойлер: как минимум одна из них будет рассмотрена в моём посте)
Плейлист Ded (Text Editor) на YouTube — это потрясающая серия, в которой @tscoding фиксирует процесс создания с нуля текстового редактора. Эти видео стали для меня источником вдохновения.

Зачем?

Если в сети есть так много хороших ресурсов о создании собственного текстового редактора (не говоря уже о том, что уже существует множество феноменальных текстовых редакторов), то зачем я это пишу? На то есть несколько причин:

Я хотел заняться проектом, непохожим ни на один свой прошлый.
Я хотел создать инструмент, которым смогу пользоваться.
Мне всегда хотелось глубже разобраться с созданием собственных структур данных.

Читать дальше →

+58

ntsaplin 26 июн 2023 в 10:01

Отвечаю на вопросы после аварии

Простой

10 мин

34K

Блог компании RUVDS.comХостингХранение данных*Управление проектами*

Кейс

Мы шутили про эти телефоны, а они пригодились на прошлых выходных. Точнее, пригодилось резервирование телефонии. Не конкретно эти, но похожие)

Вот тут пост про нашу аварию на прошлых выходных. Там всё было по горячим следам, потом я обещал подробнее ответить на вопросы. Отвечаю. Самое главное, пожалуй, что бы я хотел донести, — в комментариях к первому посту было очень много советов, что можно сделать, чтобы избежать такой же аварии. Но большинство из этого мы делать не будем. Потому что это ошибка выжившего: защищаться надо от вероятных рисков, а не от крайне маловероятных, где совпадает сразу пять факторов. Точнее, можно и от них, но есть критерий экономической обоснованности.

Но давайте обо всём по порядку.

— Сколько клиентов пострадало?

— На три часа и более в одном ЦОДе отключилось 7–10 % из 14 наших, то есть менее 0,5 % от общего числа клиентов хостинга (точнее, хостов). Тем не менее мы очень подробно рассказываем про эту аварию, потому что она вызвала очень много вопросов.

Читать дальше →

+160

avtozavodetz 22 июн 2023 в 12:00

Как вывести миллиарды ключей из ScyllaDB

Средний

9 мин

2.3K

Блог компании STM LabsВысокая производительность*Big Data*Хранение данных*Хранилища данных*

Кейс

Мечтал ли я когда-либо ворочать миллиардами? Честно признаюсь, да. И нельзя сказать, что Вселенная меня не услышала. Вот только я никак не имел в виду миллиарды записей в базе данных...

Ранее я уже писал о нашем опыте использования ScyllaDB в качестве архивного хранилища. Разумеется, исследования и открытия, связанные с новой базой данных, для нас на этом не закончились... Создавая архив для данных, вероятность обращения к которым близка к нулю, мы, конечно, допускали, что время от времени клиенты будут просить вернуть данные обратно в оперативное хранилище. Но запрос на извлечение из архива сразу всех записей стал для нас неожиданностью. Хорошо ещё, что клиента интересовал только ключ записи, а не вся запись целиком. Тем не менее достать 10 млрд. ключей из ScyllaDB за приемлемое время звучало как челлендж. Ну надо так надо.

+15

Doctor_IT 21 июн 2023 в 13:36

Правильные и простые бэкапы. Инструменты Veeam для резервного копирования — в чем разница?

6 мин

17K

Блог компании SelectelРезервное копирование*Хранение данных*Облачные сервисы*

Чем сильнее бизнес зависит от IT-систем, тем большие убытки он понесет в случае потери данных и простоев из-за восстановления работоспособности. Поэтому важно настроить регулярное резервное копирование систем и данных.

Но какое решение для этого выбрать? И если Veeam, то что использовать — Backup & Replication, Agent или Сloud Connect? В тексте постарались объяснить, в чем разница между сервисами Veeam для резервного копирования.

Читать дальше →

+21

ntsaplin 20 июн 2023 в 16:45

Самый длинный простой за нашу историю: я обещал рассказать про аварию

Простой

9 мин

52K

Блог компании RUVDS.comХостингХранение данных*Управление проектами*

Кейс

Коротко: 17 июня около часа ночи мы потеряли два ввода питания от города из-за аварии на подстанции, затем — один из дизелей, что вызвало «мигание» питания в подземном дата-центре. Итог инцидента — простой около 12 часов примерно 7–10 % машин одного из 14 наших ЦОДов.

Это просто дикая цепочка событий.

Это патрубок дизеля, перевязанный бинтом из админской аптечки. Сейчас расскажу, какую роль он тут сыграл.

Итак, мы потеряли оба городских ввода — всё как в худших домах Парижа. Как мы уже потом узнаем, вроде бы авария была на трансформаторе 110 кВт: при перераспределении мощностей с первого произошло замыкание второго. За полтора года это уже третий раз, когда пропадают оба луча, и вот тут я рассказывал, как мы почти сутки стояли на дизеле. Для клиентов это прошло незаметно (кроме той стойки, где при мигании света сгорел ИБП: там был простой на перезагрузку).

Штатно сработали ИБП, автоматически завелись дизель-генераторы, ЦОД продолжил работу. У нас общая энергосеть с соседним ЦОДом всё в том же подземном бомбоубежище. Общее потребление — 0,5 МВт, дизелей — на 1,05 МВт.

Через два часа, около 3:30 ночи, лопнул патрубок дизеля 0,5 МВт, отчего он внезапно перестал работать. Админы убежища переключили мощности на дизели 2 х 100 КВт и 2 х 200 КВт. В момент переключения нагрузка снова легла на ИБП, а за два часа они не успели восстановиться, и часть оборудования выключилась.

Это запустило целую цепочку последствий, потому что при этом выключении погорела одна из плат коммутатора, обеспечивавшего доступ в нашу сеть управления ЦОДом, то есть все удалённые доступы.

На площадке остались два админа, которым нужно было включить вручную коммутаторы и стойки, починить дизель и понять, что вообще происходит.

Читать дальше →

+196

292

Iliya_karin 20 июн 2023 в 07:27

Dedup Windows vs Linux, MS снова “удивит”?

Простой

17 мин

7.6K

Настройка Linux*Серверное администрирование*Хранение данных*Сжатие данных*

Туториал

✏️ Технотекст 2023

Меня давно заинтриговала тема дедупликации данных. Это произошло в далеком 2016 году, когда передо мной встала задача впихнуть не впихуемое, на продакшн-серверах. Но обнаружить доступное решение оказалось невероятно сложно (на тот момент невозможно). Со временем у меня возникли и личные задачи, когда я хотел уменьшить объем третьей или четвертой копии данных, чтобы сэкономить место на диске. Но, возможно, я просто одержим датахордингом, и это тоже не исключено.

+19

smlab_dev 15 июн 2023 в 14:05

Организация хранения исторических данных в Oracle

Средний

5 мин

4.3K

Блог компании Sportmaster LabВысокая производительность*Oracle*SQL*Хранение данных*

Туториал

Привет! Сегодня поговорим о разных способах организации хранения исторических данных в Oracle. Если вам известно более двух способов, то вы молодец и уже почти всё знаете, в чём вам и остаётся убедиться, просмотрев разделы статьи.

+18

PatientZero 13 июн 2023 в 14:11

В 10-17 раз быстрее, чем что? Анализ производительности Intel x86-simd-sort (AVX-512)

Средний

18 мин

5.7K

Программирование*Алгоритмы*Хранение данных*

Перевод

В статье приведён анализ производительности недавно ставшей популярной [1] реализации сортировки Intel AVX-512.

Intel опубликовала невероятно быструю библиотеку сортировки для AVX-512, Numpy переходит на неё, чтобы ускорить сортировку в 10-17 раз

В этом анализе мы рассмотрим производительность x86-simd-sort компании Intel и сравним её с другими обобщёнными реализациями сортировки, например, с std::sort из стандартной библиотеки C++ и vqsort — ещё одной высокопроизводительной реализацией сортировки с ручной векторизацией. Сведение сложных характеристик производительности к единому числу может быть сложной задачей, а получаемые прогнозы могут быть неточными. В своём анализе я хочу шире взглянуть на это значение «10-17 раз» и понять, как оно соотносится с другими высокопроизводительными реализациями.

TL;DR: бенчмаркинг — это сложно. Если вы пользуетесь x86-simd-sort, то можете повысить общую производительность и избежать катастрофического масштабирования при определённых паттернах входных данных с помощью vqsort + Clang. Кроме того, в анализе показано, что аппаратно-зависимая ручная векторизация с широкими AVX-512 SIMD — не единственный способ писать эффективное ПО. Несмотря на свою обобщённость, ipnsort демонстрирует сравнимую с x86-simd-sort производительность, оптимизированную не только под пиковую производительность, используя команды только до уровня SSE2.

+32

ViAndrey 12 июн 2023 в 14:16

Холиварный четверг: подключайтесь к BI-баттлу OpenSource vs проприетарное ПО

Простой

3 мин

1.5K

Блог компании VisiologyOpen source*Визуализация данных*Хранение данных*Конференции

О чем стоит подумать в понедельник? Например, можно о том, чтобы поучаствовать в холиваре через три дня в четверг! Мы как раз готовимся провести онлайн-вебинар, посвященный решению задач Business Intelligence на базе OpenSource-технологий и проприетарного ПО. Но не просто так ради холивара, а на примере решения нескольких реальных кейсов. В мероприятии будут участвовать два эксперта, каждый из которых — убежденный сторонник своего подхода. Если тема BI вам близка, если любите похоливарить или просто хочется занять вечер четверга чем-то интересным, подключайтесь! Все подробности ивента — под катом.

Пожалуй, похоливарим...

+11

1 2 ...

5 6

8 9 ...

49 50

Хранение данных *

Диск — это просто куча битов

Сто первое руководство по мониторингу метрик в Redis

О чем расскажут на SmartData 2023

Как на самом деле Linux выполняет запись на диск?

Истории

Что такое обезличивание и с чем его едят?

Ping пакеты как временное хранилище данных на python raw socket

Японский SSD (sardine state disk)

Нативный способ шифрования данных в Helm

Мониторинг — это боль

Почему мы не торопимся применять новые технологии

Как предложить рынку ИТ-продукт, если пользователи еще не знают, что он им нужен

Выбор структур данных для самописного текстового редактора

Ресурсы

Зачем?

Отвечаю на вопросы после аварии

Ближайшие события

Как вывести миллиарды ключей из ScyllaDB

Правильные и простые бэкапы. Инструменты Veeam для резервного копирования — в чем разница?

Самый длинный простой за нашу историю: я обещал рассказать про аварию

Dedup Windows vs Linux, MS снова “удивит”?

Организация хранения исторических данных в Oracle

В 10-17 раз быстрее, чем что? Анализ производительности Intel x86-simd-sort (AVX-512)

Холиварный четверг: подключайтесь к BI-баттлу OpenSource vs проприетарное ПО

Вклад авторов