Комментарии / Профиль al_ace / Хабр

Как стать автором

Александр Леоненко @al_ace

Пользователь

ПрофильСтатьи3ПостыНовостиКомментарии24

Кое-что об inode

al_ace 8 авг 2019 в 14:47

Причин, конечно может быть много, но в тему статьи подходит такая: подвисание происходит из-за перестроения какого-нибудь дерева:
— каталог с большим числом файлов в XFS — это дерево
— свободное место отслеживается с помощью 2х деревьев: одно упорядоченно по смещению, а второе по размеру свободных (или занятых, не помню точно) областей.

0

Посмотреть

Кое-что об inode

al_ace 8 авг 2019 в 14:39

В конце zip файла есть что-то вроде «содержания» архива — список структур с именем, размером и датами для каждого сжатого файла.

+1

Посмотреть

Ускорение файлового ввода-вывода C/C++, не особо напрягаясь

al_ace 21 мар 2019 в 17:14

Если работать напрямую с диском (на сколько это позволяет ОС, конечно), то последовательная запись/чтение 256КБ по одному сектору будет значительно медленней, чем запись одного пакета в 256КБ. Определяется это тем, что диск — это тоже «компьютер» и у него внутри тоже есть накладные расходы на совершение операций. Есть также и волшебная величина, после которой рост скорости почти не происходит, она определяется максимальным размером буфера, который можно передать накопителю на запись (maximum transfer length). Эту величину можно запросить у накопителя, в том числе через API ОС. Очень популярная величина — 128КБ, но современные накопители могут и больше, например, 2МБ.

0

Посмотреть

Темное искусство воскрешения: как восстанавливают данные с поврежденных носителей

al_ace 22 ноя 2018 в 11:35

Безусловный плюс этого подхода в его необычности. На практике задача восстановления файла без заголовка встречается крайне редко, либо шансы чрезвычайно малы, т.к. поврежденный «заголовок» — это половина файла. Поэтому стандартные инструменты не заточены под такой тип проблемы. И человек который будет разбираться с диском вряд ли будет предполагать такой алгоритм порчи данных. И еще важный вопрос от кого защищаемся?

От покупателя с авито такой подход сработает на отлично. Но если рассматривать серьезного противника и если ему стал известен алгоритм работы утилиты, то тут не все так хорошо.
Самое слабое место ваших рассуждений — это преувеличение важности заголовка. Поиск по заголовку — это просто наиболее простой и быстрый способ, но не единственный. Конечно есть типы для которых начало содержит критически важные данные, но я не уверен, что таких типов большинство.

Например. Вы правильно заметили, что современный документы вроде docx, pptx, odt, и тд — это zip архивы, В них хранятся какие-то «под-файлы»: стили, связи, сам текст и еще что-то. Каждый под-файл сжат отдельно и перед ним есть сигнатура 0x04034b50.
Я провел эксперимент, взял несколько документов docx, текст там хранится в под-файле /word/document.xml (и это тоже сигнатура для поиска). В одном файле смещение этого под-файла было около 1700 байт, в другом около 3000. Я удалил все что было до этого смещения и сохранил это как новый zip архив. WinRAR прекрасно распаковал все оставшиеся под-файлы.
Вывод: если размер уничтожаемого заголовка будет небольшим (1Кб например), то элементарный сигнатурный поиск и подручные инструменты позволят увидеть текст всех ваших документов. И не нужно тут статистических методов и машинного обучения.
К другим типам файлов тоже можно найти свой подход, хоть и не ко всем. Можно конечно портить больше чем 1Кб, но это скажется на скорости.

Что касается живых документов, то их анализ сложный труд для разработчиков алгоритмов анализа, но не для экспертов криминалистов со специальным ПО.

0

Посмотреть

Темное искусство воскрешения: как восстанавливают данные с поврежденных носителей

al_ace 21 ноя 2018 в 16:13

Алгоритм кажется мне излишне сложным, с учетом возможности просто зашифровать диск или раздел. Но в качестве мысленного упражнения попробую найти в нем несколько недостатков:

Чтобы перетереть заголовки и тела файлов, вам нужно знать где эти файлы начинаются, а для этого вам нужна таблица MFT, которую вы удалили на предыдущем шаге. Не забудьте закэшировать размещение файлов =)

Поточные видео и аудио будут очень устойчивы к стиранию заголовка и мелким пакостям внутри, потому что они поточные и формат файла предполагает воспроизведение с любого места и возможные потери. Это, например, относится к mp3 и mpeg. Попробуйте испортить файлы и воспроизвести их потом.

Если ваши jpeg'и с одной фотокамеры, то очень вероятно что будут использовать одни и те же настройки сжатия (таблицы квантования и т.д.). Т.е. можно «пересадить» заголовок (область от начала до маркера SOS) от любого другого живого файла. Более того, в начале фото-jpeg'а обычно лежит бесполезный для распаковки exif, который занимает несколько килобайт, т.е. есть высокий шанс найти «свои» ключевые структуры.
Т.е. надо из всех jpeg'ов поудалять exif и пережать их с включенной оптимизацией таблиц Хаффмана, в этом случае перезапись первого килобайта будет очень эффективна.

Мусорить тоже надо уметь. Картинки можно отсортировать по дате и модели камеры (если вы не убрали exif). По документам можно выполнить текстовый поиск по ключевым фразам. Целостность многих файлов можно проверить и отбросить битые.

Это я все к чему. Если параноить по-настоящему, то шифрование выглядит надежней. Но только помните про обратную сторону этой «надежности», если что-то сломается, то шансы потерять данные насовсем значительно возрастают.

0

Посмотреть

Как я откатил систему на месяц назад и все вернул? Опыт использования ESXi. Или как делать не надо

al_ace 25 июл 2018 в 08:58

Если нет бекапов, а все сломалось, то перед тем как заниматься лечением хорошо бы сделать бекап текущего состояния (т.е. полную копию диска). Полно ситуаций, когда лечение наносит несравнимо больший вред данным, чем болезнь от которой лечили.
Но этот совет неприменим, если проблема связана с неисправностью диска.

0

Посмотреть

Две трети б/у карт памяти содержат личные данные предыдущих владельцев

al_ace 10 июл 2018 в 11:23

Описанная выше задача не является чем-то особенным для серьезных сервисов восстановления данных. В принципе, если помните параметры массива, то mdadm + photorec вытащат все фотографии.
А в плане получения опыта и знаний работу проделали, конечно, очень серьезную.

+1

Посмотреть

Apple Fusion Drive, сохранение данных при замене жесткого диска

al_ace 24 мая 2018 в 13:48

Обычно 4 копии: 2 на hdd и 2 на ssd. Данные о размещении шифрованы, а ключ иногда меняется/теряется/повреждается.

0

Посмотреть

БДСЛ-2017: Таня Бибикова о визуализации данных

al_ace 28 ноя 2017 в 13:18

Спасибо! Про Тафти уже слышал где-то, вижу что он по-прежнему актуален

0

Посмотреть

БДСЛ-2017: Таня Бибикова о визуализации данных

al_ace 28 ноя 2017 в 13:16

Спасибо!

0

Посмотреть

БДСЛ-2017: Таня Бибикова о визуализации данных

al_ace 24 ноя 2017 в 14:06

Порекомендуйте, пожалуйста, книги на тему визуализации данных.

0

Посмотреть

Быстрое восстановление данных. Схема бабочки для регенерирующих кодов

al_ace 21 июл 2017 в 11:13

Интересная конфигурация. Похожа на evenodd и RDP.

Еще из «альтернативных RAID 6» однажды попался массив с такой схемой:

.
Собран был на старом adaptec.

0

Посмотреть

Восстановление данных из поврежденного массива RAID 5 в NAS под управлением Linux

al_ace 11 мая 2017 в 14:45

Можете уточнить точный сценарий, при котором ZFS сложнее восстановить?

Есть целая куча сценариев, которую можно отнести к человеческому фактору. Сюда относятся всякие переформатирования, переинициализации, удаление файлов по ошибке и тому подобное.

Преимущество NTFS в таких сценариях в том, что она хорошо изучена и ее поддерживают все основные инструменты для восстановления данных (кто-то хуже, а кто-то лучше, но поддерживают), а у специалистов по восстановлению данных уже скопился большой опыт. А вот с ZFS все сейчас находится только в развитии.
Если проводить очень грубую аналогию с автомобилями, то NTFS — она как жигули, а ZFS — как тесла. Тесла вроде как должна быть надежней, заранее сообщать о поломках и прочее. Но если вы дадите ее погонять подросткам в деревню, они точно найдут способ ее сломать. И починить ее сможет один лишь Илон Маск. А вот жигули вам вам смогут починить в той же деревне и за дешево.

+3

Посмотреть

Как я дома NAS строил

al_ace 24 апр 2017 в 16:30

Проблемный диск может быть как относительно стабильным, так и сам себя убивающим. Поэтому если запаса по избыточности уже нет, то читать с такого диска данные — это риск.

Хотя никто не запрещает держать обычную ZFS на RAID-5.

Не запрещает, но сильно не рекомендовалось, насколько помню.

Видел такие «нерекомендованные» конфигурации в природе: RAID-5 на mdadm, на нем lvm2, а там ZFS. В метаданных проскакивало название NASdeluxe.

0

Посмотреть

Как я дома NAS строил

al_ace 24 апр 2017 в 14:48

Аналог RAID-Z — это RAID-5. Если в нем один диск умер совсем (и первым), а на еще одном несколько бэдов, то специалисты по восстановлению данных вернут вам все те же 99% данных. Правда, у ZFS все же есть преимущество — это дублирование метаданных, которого нет у «нормальных» файловых систем. Хотя никто не запрещает держать обычную ZFS на RAID-5.

0

Посмотреть

Начнем с математики. Векторизация вычислений в реализации технологии RAID-6

al_ace 21 апр 2017 в 10:16

Еще вопрос.
Обычно raid контроллеры используют полином 0x11D и коэффициенты 1, 2, 4, 8,… для подсчета блока Reed-Solomon. Но есть исключения. Как вы думаете с чем это связано? Другой полином и/или другие коэффициенты могут дать какой-то выигрыш при расчете?

0

Посмотреть

Начнем с математики. Векторизация вычислений в реализации технологии RAID-6

al_ace 20 апр 2017 в 15:33

Как сильно влияет время расчета контрольных сумм на общее время операций чтения и записи, если говорить о «типичной» конфигурации?

0

Посмотреть

Восстановление данных из поврежденного массива RAID 50

al_ace 20 апр 2017 в 14:26

В случае классических RAID информация о контроллере дает не так уже и много. В лучшем случае вы найдете метаданные на дисках и по ним узнаете конфигурацию. Однако есть еще очень много других проблем:
— умирающие HDD
— неактуальные участники (относительно «живые» диски, которые были давно исключены из массива)
— всякие попытки «самолечения» из-за которых образуется каша в данных

0

Посмотреть

Современные RAID контроллеры Adaptec от А до Я. Часть 1

al_ace 4 авг 2015 в 12:57

Подскажите, а Adaptec случайно не делилась структурой метаданных, которые они хранят на дисках?

0

Посмотреть

Что под капотом у виртуальных дисков? (на примере VHD и VHDX)

al_ace 16 июл 2015 в 10:07

Вот и у меня, честно говоря, не получилось такого добиться. C Hyper-V дела не задались, а новый VirtualBox пишет новые данные в разностный диск (как на картинке в статье). Такая же ситуация была и нескольких случаях при восстановлении данных, но в поломанных данных может случиться все, что угодно.

0

Посмотреть

1