kazenniy Jan 12 2017 at 10:34

Прямой доступ к диску из python (simhdd)

3 min

14K

Python*Development for Linux*

+18

Comments 20

amarao Jan 12 2017 at 12:31

Когда я разрабатывал in-house программу для замены дисков (с пересозданием файловых систем и т.д.) для swift-storage, одна из проблем, с которой я столкнулся, были «умирающие IO». Это когда дисковый запрос уходит, а ответа не приходит. Приложение в D+, убить нельзя, ничего сделать нельзя.

В рамках попыток сделать жизнь людей лучше (вылечить эту проблему нельзя) я реализовал декоратор, который позволяет запускать код в отдельном треде, ждёт завершения или таймаута и сообщает о таймауте. Залипший тред остаётся висеть в ОС навсегда, но, хотя бы, пользователю об этом сообщают.

https://github.com/amarao/thread_timeout

kazenniy Jan 12 2017 at 13:55

Тут подобной проблемы не будет. У sgio запроса есть таймаут, задаваемый при вызове. Если диск не ответил вовремя, то команда отвалится по таймауту. Я на это напоролся, когда делал поддержку безопасности дисков. Команда снятия пароля с диска со стиранием содержимого не возвращает управление до конца стирания. На больших дисках это много часов. Приходится сдвигать таймаут на предпологаемый срок завершения.

amarao Jan 12 2017 at 15:03

Эти таймауты работают, если на шине всё хорошо. Просто поверьте мне, когда SCSI контроллеру или enclosure плохо, то ни какой из таймаутов не срабатывает. На совсем. Я пробовал — висит более недели (дальше у меня терпение закончилось). По коду ядра видно, что таймаут есть, но почему-то он не срабатывает. Дальше моего Си-конфу не хватило понять почему, но это стабильное поведение на LSI как минимум с 2.6.18, и по 4.4+.

kazenniy Jan 12 2017 at 15:57

Надо будет погонять на полумертвых дисках, посмотреть результат. Может проявится.

amarao Jan 12 2017 at 16:05

Если есть SAS-enclosure с sata-дисками, есть довольно простой трюк: https://github.com/amarao/lsi-sata-fuckup

kazenniy Jan 12 2017 at 16:57

Команда security-erase можно сказать имитирует зависание диска. Она поднимает флаг занятости диска на очень долгое время. А следующая команда попадая в очередь блокирует ее на весь sas порт? Тогда это програмный косяк в драйверах. И все развиснет, как только закончится security-erase.
Это работает только на корзинах с экспандером или на прямом подключении тоже?

amarao Jan 12 2017 at 20:51

Только на экспандерах. Если диски подключены к разным хостам («хостам» в терминах SAS, т.е. к разным портам), то проблемы нет.

kazenniy Jan 12 2017 at 17:28

Заинтересовали вы меня этой проблемой. Дорвусь до разных корзин обязательно потестирую.

amarao Jan 12 2017 at 20:53

Отпишитесь, если сделаете, пожалуйста. Я с этой проблемой половину своей карьеры сталкиваюсь.

Если что, поведение можно поменять изменив queue depth для устройств. Если queue depth =1, то проблема не возникает.

На самом деле всем пофигу на secure-erase баги, это просто метод воспроизвести проблему на рабочем железе. На нерабочем железе это выглядит так: плохо умирает диск, на него уходит запрос (запросы?) и всё — ответа назад не приходит. Иногда со всех устройств бэкплейна (это уже совсем катастрофа), иногда только с одного.

UFO landed and left these words here

kazenniy Jan 13 2017 at 06:34

Поправил.
Про орфографию лучше писать в личку, а то ведь действительно заминусуют.

AIxray Jan 14 2017 at 09:29

Спасибо вам!) Какие аналоги(.exe) есть для винды?

kazenniy Jan 14 2017 at 09:30

Я не слежу за событиями для этой платформы.

UFO landed and left these words here

kazenniy Jan 15 2017 at 06:11

В данном случаем так сделать не получится. Билиотека использует линуксовый механизм ATA Pass-Through. В windows добираться до диска придется другими методами.

UFO landed and left these words here

kazenniy Jan 15 2017 at 10:45

Вот этого я не знаю. Пробуйте и делитесь результатами.

UFO landed and left these words here

Vcoderlab Jan 16 2017 at 13:39

Прочитав заголовок, открыл статью, рассчитывая увидеть описание способов прямого доступа к диску и используемых для этого библиотек с примерами кода и объяснением, что зачем и почему в этом коде делается. Вместо этого вижу описание некоей программы, код которой доступен на гитхабе, и ничего из ожидаемого…

kazenniy Jan 16 2017 at 13:40

Описание способов было в первой части статьи. Там подробно все разобрано.