Шло рядовое копирование файлов, когда MidnightCommander сказал OOPS и сдох. В логах OOPS-а было необрое: упоминание про какие-то проблемы ядерного драйвера OCFS2 - файловой системы кластера.
Что положено делать в таких случаях? Правильно, проверку файловой системы - FSCK. Набираю команду проверки, и... fsck.ocfs2 валится с ошибкой ввода-вывода (I/O error on channel). Приехали...
Однако в логах ничего предосудительного не обнаружилось, ядро ошибки ввода-вывода не получало! Мистика...
Смотрю документацию на утилиты OCFS2 - там ничего. Много гуглю, и в майл-листах Оракла (а где же еще?!) обнаруживаю обсуждение, в котором в том числе упоминается что источником подобной ошибки может также служить... проверка контрольных сумм метаданных самой файловой системы! И перед FSCK эту проверку нужно отключать, сказав
tunefs.ocfs2 --fsfaeture=nometaecc
Отключаю - и файловая система начинает проверяться, выдавая огромный отчет о разрушениях. Минут через 20 все завершается, монтирую - все ОК. Демонтирую, и, следуя инструкции из майл-листа, включаю обратно
tunefs.ocfs2 --fsfaeture=metaecc
Система некоторое время думает, и выдает "неподдерживаемая fsfaeture" номер такая-то. Ну и ладно, была поддерживаемая - стала неподдерживаемая, подумаешь... С такими мыслями я пытаюсь смонтировать том - авотфиг! "неподдерживаемая fsfaeture". Пытаюсь отменить - "неподдерживаемая fsfaeture". Пытаюсь снова запустить FSCK - "неподдерживаемая fsfaeture".
Похоже, приплыли... или нет? Слава создателю, до начала попыток исправления я отключил вторую ноду кластера! И теперь она содержит живые данные в том самом состоянии, с которого начали!
Отключаю первую ноду из сети, включаю вторую и делаю ее принудительно главной. Подключаю первую - она отваливается по рассогласованию данных на диске. Подключаю принудительно в роли ведомой, и данные реплицируются со второй ноды на первую.
5 минут - и все вернулось к исходному виду. Снова отключаю вторую ноду, и снова повторяю всю процедуру восстановления файловой системы только вот включение глюка с "metaecc" пропускаю.
После чего все прекрасно смонтировалось, поднялось и заработало - и вот мы снова с вами!