Как стать автором
Обновить
172.05

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Переизобретаем файловую систему: (Open)ZFS

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров17K


Хранение данных — это всегда боль, у которой может быть больше 50 оттенков: железо, кэш, гарантии, производительность, скорость восстановления при проблемах, удобство и прочее. Как решить большинство из них, при этом получив что-то легко обслуживаемое, да ещё бесплатно? Сегодня поговорим про файловые системы на примере не совсем дефолтной OpenZFS.
Читать дальше →
Всего голосов 62: ↑61 и ↓1+60
Комментарии80

Обзор популярных файловых систем в системах виртуализации. Часть 2: BTRFS

Время на прочтение7 мин
Количество просмотров7K

В прошлом материале мы рассказали о типах файловых систем и подробно остановились на системе ZFS. В второй части подробно разберем BTRFS — файловую систему для Unix-подобных ОС.

Читать далее
Всего голосов 12: ↑11 и ↓1+10
Комментарии3

Настройка NVMe over TCP — для тех, кому надо подключить больше 1 диска единственной конфигурации из всех примеров в Сети

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров14K

Технология NVMe через различные фабрики (далее NVMeOF) оформлена в качестве стандарта летом 2016 года, она была встроена в пятую ветку ядра Linux.

Поэтому, когда было решено мигрировать объемные базы данных с легаси-решений на общедоступные платформы, возник вопрос — можно ли применить эту технологию для увеличения дискового пространства для создания зеркал локальных дисков?

Чтобы все зеркала не вышли из строя сразу, принимать такие диски надо бы небольшими группами с нескольких машин из разных стоек. Идея показалась достойной рассмотрения, поэтому создали небольшой стенд.

Меня зовут Алексей Дрожжов, я старший инженер в билайне, и в этом посте расскажу, как мы решали эту задачу.

Задача: подключить много дисков с нескольких серверов

Читать далее
Всего голосов 20: ↑20 и ↓0+20
Комментарии9

«Берегите платье снову, а персональные данные смолоду»: рассуждения и советы по цифровой гигиене

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров12K

Всем привет! Меня зовут Андрей, я специалист по информационной безопасности в Selectel. За время своей работы я понял, что часто люди используют правила цифровой гигиены в профессиональной деятельности, но совсем забывают про них в обычной жизни. По данным компании RTM Group, за 2021 год в России зарегистрировано более 249 тыс киберпреступлений, связанных с мошенническими схемами, — и это только известные правоохранительным органам инциденты.

Не хотите подкрепить эту статистику? Тогда давайте вспомним, почему важно соблюдать правила цифровой гигиены, и найдем тот самый «баланс» между комфортом и шапочкой из фольги. Подробности под катом!
Читать дальше →
Всего голосов 47: ↑46 и ↓1+45
Комментарии22

Истории

Как мы обезличиваем ПДн, сохраняя их смысл и качество. Чтобы тестовый стенд был полезным, будто там данные с прода

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров4.1K

Год назад мы выпустили «Маскировщик» — промышленный софт, который обезличивает персональные данные, сохраняя их качество и смысл. То есть гендерный баланс; социально‑демографическую структуру; родственные связи; страну и оператора в телефоне; валидность паспортов, ИНН, СНИЛС. В общем, «Маскировщик» делает так, чтобы вы тестировали продукты и обучали ML‑модели будто бы на «живых» ПД.

В этой статье пролью свет на методы изменения состава и семантики, которые использует продукт. Для простоты буду называть их «алгоритмами маскирования». Расскажу, по какой логике меняем одни данные другими, какие ограничения и как учитываем.

Разобраться в алгоритмах маскирования
Всего голосов 14: ↑14 и ↓0+14
Комментарии7

Один на 150 миллионов операций. Расследуем причины выброса времени отклика в операциях ввода-вывода

Время на прочтение12 мин
Количество просмотров3.6K

Привет! Я Александр Пищулин, перфоманс-инженер в компании YADRO. Сегодня расскажу об одном интересном случае траблшутинга в работе с системой хранения данных — он касается выброса времени отклика. Поиск причин сбоев, наверное, одно из самых увлекательных занятий в моей работе. Зачастую у подобных задач минимальная формализация подхода к решению, каждый раз может быть своего рода открытием или, если угодно, челленджем.

Так произошло и в случае, который я описываю под катом. Путь решения задачи может показаться не оптимальным, но в итоге именно он привел к неожиданной разгадке всей проблемы. Возможно, вы бы начали искать проблему иначе — предлагаю поделиться вашими соображениями или опытом в комментариях. 

Узнать решение →
Всего голосов 26: ↑26 и ↓0+26
Комментарии10

Висмут на пальцах: носимое устройство для хранения данных

Время на прочтение15 мин
Количество просмотров2.3K


Когда речь заходит о создании носимого устройства, то одним из первых возникает вопрос комфорта, который напрямую зависит от габаритов. Размеры и архитектура устройства напрямую зависят от функций, которые оно должно выполнять. Порой инженерам приходится создавать своеобразный слоеный торт, накладывая слои разных наноматериалов друг на друга. Естественно, многих тревожил вопрос — возможно ли мультифункциональное носимое устройство, созданное из единственного слоя наноматериала? Ученые из Мельбурнского королевского технологического университета (Австралия) провели исследование, в котором создали прототип такого чудо-устройства, носимого на пальце пользователя и способного не только собирать энергию от движений, но и записывать данные. Из чего было сделано устройство, каков принцип его работы, и каким может быть его практическое применение. Ответы на эти вопросы мы найдем в докладе ученых.
Читать дальше →
Всего голосов 16: ↑16 и ↓0+16
Комментарии0

Restic: эффективное резервное копирование из Stdin

Время на прочтение5 мин
Количество просмотров4.5K

Про restic я уже рассказывал в статье Бэкап-хранилище для тысяч виртуальных машин свободными инструментами, с тех пор он остаётся моим любимым инструментом для бэкапа.

Сегодня я опишу вам готовый рецепт того как настроить эффективное бэкапирование чего угодно прямо из stdin, с дедупликацией и автоматической очисткой репозитория от старых копий.

Несмотря на то, что restic отлично подходит для сохранения целых каталогов с данными в этой статье мне хотелось бы сделать упор на сохранении резервных копий на лету прямо из Stdin.

Как правило это бывает актуально для сохранения бэкапов виртуальных машин, баз данных и других, представленных одним большим файлом, данных, которые можно последовательно вычитывать и сразу отправлять в систему бэкапирования.

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии3

Эффективные бэкапы в S3 с помощью Restic: краткое пособие по настройке

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров3.7K

В 2007 многие администраторы настраивали бэкапы с помощью утилиты rsync, но для этого нужно было выделять отдельный хост для хранилища. И одной из частых проблем было резервирование этого сервера для бэкапов, которое увеличивало накладные расходы. Также хост бэкапирования располагался рядом с устройствами, для которых нужно было выполнить резервное копирование, настроить мониторинг и другое. Это нарушало правило 3-2-1, поэтому для построения действительно надежной системы нужно располагать хосты в разных дата-центрах.

Сегодня можно прибегнуть к услугам облачного хранения данных — например, использовать объектное хранилище Selectel. В этой инструкции рассмотрим, как работать с ним с помощью утилиты Restic.
Читать дальше →
Всего голосов 36: ↑35 и ↓1+34
Комментарии1

ЦЕРН увеличил объем своего хранилища до первого в истории эксабайта. Как хранятся данные Большого адронного коллайдера

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров19K

Когда Большой адронный коллайдер запущен — как например, во время своего второго цикла, с начала 2015 года по 2018 год, — он обрабатывает события на частоте 40 МГц. Другими словами, он учитывает 40 миллионов событий в секунду. Это необходимо, чтобы отслеживать столкновения между частицами, длящиеся менее 25 наносекунд.

Каждое событие содержит в себе примерно 1 мегабайт данных. Это значит, что в систему во время работы коллайдера входит примерно 40 терабайт данных. В секунду! Абсолютно фантастический объем информации, ведь петабайт набирается примерно за полминуты. Около 72 000 средних жестких дисков заполнялись бы каждый час.

Обрабатывать всё это на такой же скорости не представляется возможным; для анализа подобных объемов данных после окончания работы установки требуются годы. Значительная часть отфильтровывается еще на этапе сбора, на что тоже уходят огромные вычислительные ресурсы. Но всё‑таки остальную часть информации нужно где‑то хранить. Для этого европейская организация по ядерным исследованиям (ЦЕРН) содержит самый большой ЦОД в мире.

Читать далее
Всего голосов 61: ↑61 и ↓0+61
Комментарии39

TON Storage – прорыв в Web3 или провал?

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров5.9K

TON Storage - это часть экосистемы TON, изначально спроектированной командой Telegram, во главе с Павлом Дуровым. Она предоставляет возможность хранить, скачивать и делиться файлами децентрализованным способом.

Напомню, что работа TON (Telegram Open Network) на несколько лет была запрещена американским, а проект был передан сообществу и переименован в The Open Network.

TON Storage необходим в блокчейн-экосистеме как дешевый способ хранения больших файлов. Хранение файлов непосредственно в блокчейне будет очень дорогим, а потребность в обмене большими файлами между пользователями блокчейна существует. Например, NFT создаются не только на основе изображений, но и музыки и видео. И все эти данные нужно где-то хранить.

Читать далее
Всего голосов 13: ↑13 и ↓0+13
Комментарии5

Как мы перевезли на новый сайт 700 тысяч рецептов и 6 миллионов фото пирогов, сырников и овсяноблинов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.1K


На рынке частой историей является поглощение глобальными игроками локальных интернет-сервисов и ресурсов, которые дублируют их функции. Так произошло в 2017 году и с парой «Овкусе» и Cookpad, когда последний решил зайти в русскоязычный сегмент. Тогда слияние произошло успешно: российский проект был куплен и органично влился в инфраструктуру кулинарного ресурса японского происхождения, где активно развивался все эти годы. Ровно до момента, пока головной офис не принял решение уйти из региона, полностью удалив русскоязычную часть Cookpad вместе со всем имеющимся контентом.

Сегодня мы расскажем о том, как нашей команде пришлось переносить данные целого проекта на новую платформу и с чем нам пришлось столкнуться при переезде 6 миллионов фото блюд из 700 тысяч рецептов, которые создали пользователи платформы за 15 лет.
Читать дальше →
Всего голосов 24: ↑23 и ↓1+22
Комментарии7

Солидные SSD-диски и эпичные процессоры: что подготовил рынок серверного железа в сентябре

Время на прочтение5 мин
Количество просмотров6.3K

За окном уже вовсю опадает листва, за рубежом — появляются железные новинки, а я — продолжаю о них рассказывать. К слову, вендоры выпустили много интересного в сентябре. Среди новинок — процессоры AMD, SSD-диски, свежие серверные платформы и другое.

Уже присматриваете железо для обновления своих серверов? Тогда приглашаю под кат!
Читать дальше →
Всего голосов 41: ↑41 и ↓0+41
Комментарии3

Ближайшие события

ГОСТ 57580: как финансовым компаниям защищать критические данные

Время на прочтение5 мин
Количество просмотров2.2K

Сегодня обсудим нюансы работы с критически важными данными финансовых организаций: 

• какие стандарты регулируют применение средств защиты информации;

• как банки могут хранить и передавать данные, минимизируя риски;

• на что обратить внимание, работая с облаком.

Поделимся собственным опытом аттестации средств информационной безопасности по требованиям законодательства и регуляторов.

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии2

Бесшовный апгрейд ПО для системы хранения данных: как организовать и улучшить

Время на прочтение14 мин
Количество просмотров3.7K

Любое программное обеспечение необходимо обновлять — ПО для систем хранения данных (СХД) не исключение. Логика апгрейда в СХД не тривиальна. В системе есть несколько контроллеров хранения, обновлять которые нужно последовательно, учитывая все возможные риски — потерю отказоустойчивости, конфликт версий и другие. При этом даунтайм сервиса или миграция данных на другую систему — варианты, которые не устроят ни одну компанию.

Я Владимир Приходько, руководитель отдела разработки подсистем управления в компании YADRO. Вместе с командой мы развиваем пользовательский функционал СХД. В тексте расскажу о специфике бесшовного обновления ПО в системах хранения данных и дам рекомендации, как выстроить этот процесс с учетом лучших практик. Все описанные подходы мы с командой успешно используем в обновлении СХД TATLIN.UNIFIED

Читать далее
Всего голосов 22: ↑22 и ↓0+22
Комментарии2

Новая файловая система Composefs для Linux: что это такое и как она работает

Время на прочтение3 мин
Количество просмотров4.3K

В ноябре 2022 года Александр Ларсон, сотрудник Red Hat, разработавший Flatpack, предложил реализацию файловой системы Composefs. Она в некоторых моментах похожа на Squashfs, подходит для монтирования образов в режиме «Только для чтения». Особенности новой ФС — совместное хранение содержимого нескольких примонтированных дисковых образов и поддержка проверки подлинности читаемых данных. Позиционируется она как инструмент для монтирования образов контейнеров, а также применения для Git-подобного репозитория OSTree. Подробности о новинке — под катом.

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии5

Извлечение текста из файлов PDF при помощи Python

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров30K

▍ Введение


В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.
Читать дальше →
Всего голосов 55: ↑54 и ↓1+53
Комментарии10

Сжать и не пожалеть: как работает сжатие без потерь

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров4.6K

Более 9 миллиардов гигабайт информации ежедневно путешествуют по интернету, заставляя постоянно искать все новые и новые методы упаковки данных. Самые эффективные решения используют подходы, которые позволяют достичь большей плотности за счет "потерь" информации в процессе сжатия. В то же время очень мало внимания уделяется сжатию без потерь. Почему? Ответ прост - методы сжатия без потерь уже невероятно эффективны. С их помощью работает буквально всё, от формата PNG до утилиты PKZip. И это все благодаря студенту, что захотел пропустить экзамен.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии3

Сам себе BI-аналитик или как навести порядок в отчётности компании

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров8.7K

Привет, Хабр! На связи аналитики Кошелька. Наша команда состоит из 13 дата-аналитиков, 5 DE-инженеров, 2 ML-инженеров и ровно 0 BI-аналитиков. Что мы любим делать? Определять метрики и рисовать дашборды. Что нужно заказчику? Метрики и дашборды (а еще достижение целей и выручка, но не будем сейчас об этом).

В этой статье мы собрали инструкцию, как можно навести порядок в отчётности без отдельных BI-аналитиков, и с какими проблемами вы можете столкнуться в процессе.

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии10

Почему на новые SSD ставят вентиляторы. Термотроттлинг

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров16K
ineo M.2 2280 SSD Rocket Heatsink с вентилятором, источник

Динамический термотроттлинг — функция современных SSD, когда контроллер специально замедляет/приостанавливает свою работу, чтобы снизить температуру ячеек памяти NAND. Он делает это ради сохранения данных, чтобы накопитель не перегрелся и не сработали контуры отключения питания.

С каждым поколением PCIe пропускная способность линий PCIe обычно удваивается. В PCIe 4.0 скорость SSD приближалась к теоретическому максимуму 8 ГБ/с. Сегодня SSD PCIe Gen 5.0 x4 разгоняются до 10−14 ГБ/с, при этом сильно нагревается контроллер (неудивительно, что эти микросхемы вообще долго не живут).
Читать дальше →
Всего голосов 58: ↑56 и ↓2+54
Комментарии32