Комментарии 55
у меня сервер включен, виртуальная машина живая и доступна по ssh, но файловая система перемонтировалась в read only.
Произошла задержка ввода/вывода на одном из хранилищ (данные не пострадали), проверьте состояние ВМ через консоль, возможно потребуется перемонтировать ФС или перезагрузить ВМ.
Техподдержка отвечает вот такое:
Здравствуйте. Случился программный сбой на СХД, из-за которого запросы ввода-вывода выполнялись с задержкой в несколько минут. Сейчас сбой устранен. Приносим извинения за неудобства.
Здравствуйте. Случился программный сбой на СХД, из-за которого запросы ввода-вывода выполнялись с задержкой в несколько минут. Сейчас сбой устранен. Приносим извинения за неудобства.
Вроде поднялось все.
Саппорт работает.
В кратце: упал один из узлов кластера СХД, по закону подлости в тот момент, когда происходило пересканирование SR (аккаунтинг снапшотов).
Итог: блокировка процесса, ручное снятие блокировки.
Последствия: порядка 10 минут IO lock для клиентов (выглядит как трейс вида
Около 15 машин попытались ребутнуть, они наткнулись на блокировку (которую я руками снимал сейчас).
По сути: у большинства клиентов — лаг на несколько минут; у 15 машин — даунтайм (вместо ребута).
Сейчас должно было всё нормализоваться.
В кратце: упал один из узлов кластера СХД, по закону подлости в тот момент, когда происходило пересканирование SR (аккаунтинг снапшотов).
Итог: блокировка процесса, ручное снятие блокировки.
Последствия: порядка 10 минут IO lock для клиентов (выглядит как трейс вида
[112800.281512] INFO: task process_name:19189 blocked for more than 480 seconds. [112800.281514] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. [112800.281517] proces_name D 0014a870 0 19189 1 0x00000000 [112800.281522] d3cbdcf0 00000282 f659f223 0014a870 d3cbdccc d483e070 c0834f80 c0834f80 [112800.281531] 43ef9ebd 000065d3 d55b9f80 d3de6230 d483e070 d3cbdd0c c1d0e000 d3cbdd30 [112800.281540] 00000000 f682d39e 0014a870 f659f223 0014a870 c079dc80 00000000 00627e90 [112800.281549] Call Trace: [112800.281553] [<c04854c3>] io_schedule+0x73/0xb0 [112800.281557] [<c0128e75>] sleep_on_buffer+0x5/0x10 [112800.281562] [<c0485aaf>] __wait_on_bit_lock+0x3f/0x90 [112800.281567] [<c0485b65>] out_of_line_wait_on_bit_lock+0x65/0x80
Около 15 машин попытались ребутнуть, они наткнулись на блокировку (которую я руками снимал сейчас).
По сути: у большинства клиентов — лаг на несколько минут; у 15 машин — даунтайм (вместо ребута).
Сейчас должно было всё нормализоваться.
не просто лаг, а перемонтирование / в read-only. такое без ручного вмешательство само по себе не нормализуется.
Стоп. А вот это не ожиданное. Какие диски ушли в ro? У нас стоит режим error=panic, т.е. машина должна перезагружаться.
у меня только один диск к виртуальной машине подключен. uuid диска a7e90219-5a04-4eab-9703-08f7b8b51a39
вот лог:
вот лог:
INFO: task pdflush:170 blocked for more than 120 seconds.
end_request: I/O error, dev xvda, sector 4828123
Buffer I/O error on device dm-0, logical block 565313
lost page write due to I/O error on dm-0
Buffer I/O error on device dm-0, logical block 565314
lost page write due to I/O error on dm-0
end_request: I/O error, dev xvda, sector 4828171
Buffer I/O error on device dm-0, logical block 565319
lost page write due to I/O error on dm-0
Aborting journal on device dm-0.
ext3_abort called.
EXT3-fs error (device dm-0): ext3_journal_start_sb: Detected aborted journal
Remounting filesystem read-only
EXT3-fs error (device dm-0) in ext3_reserve_inode_write: Journal has aborted
EXT3-fs error (device dm-0) in ext3_reserve_inode_write: Journal has aborted
__journal_remove_journal_head: freeing b_frozen_data
__journal_remove_journal_head: freeing b_frozen_data
......
__journal_remove_journal_head: freeing b_frozen_data
__journal_remove_journal_head: freeing b_committed_data
__journal_remove_journal_head: freeing b_frozen_data
__journal_remove_journal_head: freeing b_frozen_data
journal commit I/O error
ХЗ у кого оно там нормализовалось, а у меня даже ручной запуск fsck.ext4 /dev/xvda1, который сказал clean, не помог… Машина так и не поднимается.
номер тикета?
82465
Не могу делать disclose, но от вас ожидается одна простая комбинация клавиш в консоли. Подробности в тикете.
Неужто вы думаете, что я на столько глуп, чтоб не запустить автоматический чекинг?
Раз 5 делал… Толку нет. Потому и попробовал вручную.
Раз 5 делал… Толку нет. Потому и попробовал вручную.
Может надо было на /dev/mapper/odin_system-root натравить fsck?
НЛО прилетело и опубликовало эту надпись здесь
А меня в этот раз пронесло!
Метрика только один сайт из 8 на 2х серверах увидела нерабочим, на час. Сейчас все ок, никаких проблем.
Повезло.
Но тенденция регулярных падений, конечно, совершенно не радует. Неужели таки и вправду, нужно на Amazon за качеством ехать?
Метрика только один сайт из 8 на 2х серверах увидела нерабочим, на час. Сейчас все ок, никаких проблем.
Повезло.
Но тенденция регулярных падений, конечно, совершенно не радует. Неужели таки и вправду, нужно на Amazon за качеством ехать?
Амазон вообще не обещает аптайма.
Но он его предоставляет
как человек, который амазон пользовал, скажу — там далеко не радужно.
и если виртуалка падает — амазон предлагает запустить новую.
диски надо? используйте persistent. ах, вы не подключали его? извините.
ах подключали, и не доступно? поднимайте snapshot.
ах, вы его не делали? извините, сами дураки.
ах, они не доступны? извините, или подождите и может станет доступным, или сами дураки что снапшоты не лили в другую зону.
и если виртуалка падает — амазон предлагает запустить новую.
диски надо? используйте persistent. ах, вы не подключали его? извините.
ах подключали, и не доступно? поднимайте snapshot.
ах, вы его не делали? извините, сами дураки.
ах, они не доступны? извините, или подождите и может станет доступным, или сами дураки что снапшоты не лили в другую зону.
Очень плотно используем AWS больше года. За все время один раз была небольшая проблема с инстанцем, решилась простым перезапуском.
Как и в каждом сервисе есть best practice которых следует придерживаться. Для AWS это:
— Использовать EBS instances если Вам важны данные хранимые на сервере. Если данные временные ( например какие-то промежуточные данные для вычислений ), то можно обойтись instance storage.
— Периодически делать snapshots
На мой взгляд AWS предоставляет на данный момент самый стабильный и устойчивый сервис.
Как и в каждом сервисе есть best practice которых следует придерживаться. Для AWS это:
— Использовать EBS instances если Вам важны данные хранимые на сервере. Если данные временные ( например какие-то промежуточные данные для вычислений ), то можно обойтись instance storage.
— Периодически делать snapshots
На мой взгляд AWS предоставляет на данный момент самый стабильный и устойчивый сервис.
Амазон гарантирует 99.95% uptime ( для EC2 ) в своем SLA: aws.amazon.com/ec2-sla/
Еще «Amazon EC2 SLA Exclusions» прочитайте. Когда 3 дня всё лежало от молнии — это всё нормально :)
Нет, это не нормально и Амазон не расценивает этот случай как нормальный: aws.amazon.com/message/2329B7/
Да, конечно, в SLA Амазона ( как и любой другой компании ) есть пункт про форс мажор под который можно подвести и удар молнии, но в данном конкретном случае Amazon предоставил всем пострадавшим пользователям 10 day credit.
AWS обслуживает тысячи пользователей среди которых есть весьма серьезные организации. Если он не будет обеспечивать приемлемый уровень uptime, то в мгновение ока потеряет всех пользователей и кроме того может получить миллионные иски от пострадавших. Так же не стоит забывать что на AWS работает вся инфраструктура Amazon, а тут любой простой это коллосальные убытки, падение котировок и опять же иски ( на этот раз инвесторов). То есть все что касается uptime для AWS очень и очень серьезно и измеряется конкретными суммами со многими нулями.
Да, конечно, в SLA Амазона ( как и любой другой компании ) есть пункт про форс мажор под который можно подвести и удар молнии, но в данном конкретном случае Amazon предоставил всем пострадавшим пользователям 10 day credit.
AWS обслуживает тысячи пользователей среди которых есть весьма серьезные организации. Если он не будет обеспечивать приемлемый уровень uptime, то в мгновение ока потеряет всех пользователей и кроме того может получить миллионные иски от пострадавших. Так же не стоит забывать что на AWS работает вся инфраструктура Amazon, а тут любой простой это коллосальные убытки, падение котировок и опять же иски ( на этот раз инвесторов). То есть все что касается uptime для AWS очень и очень серьезно и измеряется конкретными суммами со многими нулями.
Заголовок жутковатый :)
Насколько я понял, проблемы относятся больше к новому ЦОДу? У себя подобного не замечаю (расположение указано как «Санкт-Петербург (1)»).
Насколько я понял, проблемы относятся больше к новому ЦОДу? У себя подобного не замечаю (расположение указано как «Санкт-Петербург (1)»).
Что-то у Скалакси давно проблем не было. Лажают. Надо быть начеку. А так по ходу дела надежный один Амазон, но за него юрик из РФ хрен заплатит официально ;(
Заплатит. Велкам ту валконтроль. С амазана трясти инвойсы и фактыры.
Ну счет за услуги, допустим, можно получить прямо с сайта AWS.
Но ведь у нас хотят чтобы был:
— Договор с синей печатью и подписями ( оригинал )
— Счет с синей печатью и подписями ( оригинал )
— Акт выполненных работ с печатью и подписями
Лично для меня не представляется возможным получить с Amazon данные документы. По крайней мере если счета не превышают 6 значные суммы.
Но ведь у нас хотят чтобы был:
— Договор с синей печатью и подписями ( оригинал )
— Счет с синей печатью и подписями ( оригинал )
— Акт выполненных работ с печатью и подписями
Лично для меня не представляется возможным получить с Amazon данные документы. По крайней мере если счета не превышают 6 значные суммы.
Кстати, печати на американских документах давно не синие, а выдавленые на блестящей наклейке.
Что бы тебе послали реальные документы, по моей практике, достаточно четыехзначных сумм. Шлют даже DHL прямо в офис. Правда, врать не буду, с Амазаном не было такой практики.
амазон падал на сутки в том году.
Ну не весь же падал, а только одна из зон доступности, но не раз (то молния, то ошибка при восстановлении)
Я ответил на фразу А так по ходу дела
вот этим habrahabr.ru/post/117933/
Надежность, близкую к 99.99% можно получить. Но вопрос в цене. Глупо ожидать за 1.000 рублей непадающий сервис. Вы бы знали сколько всего накручено у облака: железо, гипервизоры, управлялка, CLVM, ISCSI, DRBD, OpenStack и каждый элемент может дать отказ. Помимо того, что квалификация людей, работающих с этими системами, как правило, очень высокая. Это нестандартные сервисы, по которым мануалов куча. Практически все баги ловятся самостоятельно и просить помощи в расшифровке логов у гугла тяжело.
Амазон, кстати один из самыъх дорогих облаков, насколько я знаю.
надежный один Амазон
вот этим habrahabr.ru/post/117933/
Надежность, близкую к 99.99% можно получить. Но вопрос в цене. Глупо ожидать за 1.000 рублей непадающий сервис. Вы бы знали сколько всего накручено у облака: железо, гипервизоры, управлялка, CLVM, ISCSI, DRBD, OpenStack и каждый элемент может дать отказ. Помимо того, что квалификация людей, работающих с этими системами, как правило, очень высокая. Это нестандартные сервисы, по которым мануалов куча. Практически все баги ловятся самостоятельно и просить помощи в расшифровке логов у гугла тяжело.
Амазон, кстати один из самыъх дорогих облаков, насколько я знаю.
Знаю сколько всего накручено, потому полностью согласен. Но все таки есть факт — надежность сейчас требуется на пару порядков выше — остается надеяться что все эти падения идут на пользу, нарабатывается опыт эксплуатации и оттачивается архитектура.
НЛО прилетело и опубликовало эту надпись здесь
Ох, ппц.
Такими темпами он скоро начнет выдавать простыню текста типа: Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y.
Такими темпами он скоро начнет выдавать простыню текста типа: Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y Cloud4Y.
Не стоит по локальным проблемам делать глобальные выводы.
У моей виртуалки на селектеле аптайм уже 220 дней, ни одной проблемой меня не цепляло, т.к. проблемы все были в той или иной мере локальные.
У моей виртуалки на селектеле аптайм уже 220 дней, ни одной проблемой меня не цепляло, т.к. проблемы все были в той или иной мере локальные.
Перенесли заметку в «Я негодую», а сделать UPD не хватает кармы.
UPD №5: Машина поднялась в час ночи по Киеву, но после проверки ФС тех. поддержкой пропал один файлик. Восстановить не затруднило ручками, но насторожило. Делайте бекапы! :)
UPD №5: Машина поднялась в час ночи по Киеву, но после проверки ФС тех. поддержкой пропал один файлик. Восстановить не затруднило ручками, но насторожило. Делайте бекапы! :)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Опять авария в облаке Selectel… Доколе?