2010.7.28
最近はサーバ障害のおかげで,あんまりゆっくりアニメ見れてないので
アニメキャプが控えめ
「え? どこが?」って思った人は,観察力が足りない(ぉ
というわけで,今日はサーバ障害の話の続きをしよう
当時,私は漠然と「とりあえず再インストールすれば直るだろう」などという
甘い考えだったりしたの
今から思うと,HDDに障害が起こってるんだから
おんなじHDDに再インストールすることで
何らかの問題が発生する可能性を考慮しておくべきだった
当たり前のことなんだけど
このときはテンパっててそれどころじゃなかったwww
とりあえず,テキトーにCentOSのインストールイメージをダウンロードして
CDに焼いて実行したんだけど,OSのインストーラが途中でこける
HDDはBIOSからもインストーラからも正常に認識されてる
それなのに,フォーマット後ファイルを書き込もうとするとHDDのマウントに失敗する
また,マウントに成功したとしてもインストール中にファイルシステムが
読み取り専用モードで再マウントされているようで停止する
うへぇ……
ちなみに問題の障害を起こしたマシンって
ハードウェアRAID組んでるのね
HDD6台使ってRAID1+0で
で,RAIDコントローラがおかしいのかなって思って
RAIDコントローラの設定画面に入って
いろいろ設定を確認したり,状態のチェックをしたんだけど問題なし
ついでに,各HDDのS.M.A.R.T.見ても「No Error」って出るしね
ここで,RAIDコントローラは見た目には問題なさそうだったので
CentOSの方のインストーラの問題かなって思って
Ubuntu Serverを導入してみたの
インストールは正常に終わって
「あ,これはいけるかな」って思ったのもつかの間
起動中に「uncompression error」でGRUBすら上がらない
おいおい……
なんなんだこれは
とりあえず,HDD(RAID)の問題かどうか見極めるために
Ubuntu Desktopを使ってCDからブートしてHDDを確認してみた
が,特に問題なく見える
GPartedからHDDフォーマットできるし,普通に使える
……呪われてるのか?
でも,ここらでそろそろ私の中でも
「RAIDコントローラが怪しい」という確信が持ててきてた
実際,これまでにもインストーラからフォーマットはできた(ときもあった)し
途中までHDDにインストールすることもできた(ときもあった)
今回のGPartedの場合もこれに当てはまるんじゃないか
というわけで,この後RAIDコントローラの設定画面に入っていろいろ弄った
まず,HDD #0-1・#2-3・#4-5のチェインでRAID1+0だったのを
HDD #0-3・#1-4・#2-5で再構築
こちらもCentOSインストール中にこける
HDDの接続はRAIDコントローラ経由で
RAID1+0ではなく,RAID使わない設定にしてみる
こちらも同様にCentOSインストール中にこける
もうね,ここまで来て私はようやくRAIDコントローラの障害と断定した
どう考えてもRAIDコントローラ以外の障害発生点がない
漠然と「RAID = 安全」という図式があって
自分の中でRAIDコントローラに障害なんてないだろうと思ってた
その変な思い込みのおかげで,障害箇所の発見にめちゃくちゃ時間がかかった
これは深く反省orz
思い込みは人の思考を鈍らす
わかってるはずのことだけど,なかなかいざというときには出てこないなぁ……
つーか,そもそもHDDあたりの障害で
HDDに問題がなさそうならRAIDコントローラしか残ってないよね
問題の切り分けがへたくそだなぁ
で,結果としてこの後RAIDコントローラを迂回させて
HDDを直接M/BのSATA端子についないだら何事もなくCentOSインストールできましたとさ
今回の教訓:
思い込んだら負け
障害発生地点に近かった方から探る
問題が起こっても落ち着いて対処
