Maidsphere

2010.7.28

最近はサーバ障害のおかげで,あんまりゆっくりアニメ見れてないので アニメキャプが控えめ 「え? どこが?」って思った人は,観察力が足りない(ぉ というわけで,今日はサーバ障害の話の続きをしよう 当時,私は漠然と「とりあえず再インストールすれば直るだろう」などという 甘い考えだったりしたの 今から思うと,HDDに障害が起こってるんだから おんなじHDDに再インストールすることで 何らかの問題が発生する可能性を考慮しておくべきだった 当たり前のことなんだけど このときはテンパっててそれどころじゃなかったwww とりあえず,テキトーにCentOSのインストールイメージをダウンロードして CDに焼いて実行したんだけど,OSのインストーラが途中でこける HDDはBIOSからもインストーラからも正常に認識されてる それなのに,フォーマット後ファイルを書き込もうとするとHDDのマウントに失敗する また,マウントに成功したとしてもインストール中にファイルシステムが 読み取り専用モードで再マウントされているようで停止する うへぇ…… ちなみに問題の障害を起こしたマシンって ハードウェアRAID組んでるのね HDD6台使ってRAID1+0で で,RAIDコントローラがおかしいのかなって思って RAIDコントローラの設定画面に入って いろいろ設定を確認したり,状態のチェックをしたんだけど問題なし ついでに,各HDDのS.M.A.R.T.見ても「No Error」って出るしね ここで,RAIDコントローラは見た目には問題なさそうだったので CentOSの方のインストーラの問題かなって思って Ubuntu Serverを導入してみたの インストールは正常に終わって 「あ,これはいけるかな」って思ったのもつかの間 起動中に「uncompression error」でGRUBすら上がらない おいおい…… なんなんだこれは とりあえず,HDD(RAID)の問題かどうか見極めるために Ubuntu Desktopを使ってCDからブートしてHDDを確認してみた が,特に問題なく見える GPartedからHDDフォーマットできるし,普通に使える ……呪われてるのか? でも,ここらでそろそろ私の中でも 「RAIDコントローラが怪しい」という確信が持ててきてた 実際,これまでにもインストーラからフォーマットはできた(ときもあった)し 途中までHDDにインストールすることもできた(ときもあった) 今回のGPartedの場合もこれに当てはまるんじゃないか というわけで,この後RAIDコントローラの設定画面に入っていろいろ弄った まず,HDD #0-1・#2-3・#4-5のチェインでRAID1+0だったのを HDD #0-3・#1-4・#2-5で再構築 こちらもCentOSインストール中にこける HDDの接続はRAIDコントローラ経由で RAID1+0ではなく,RAID使わない設定にしてみる こちらも同様にCentOSインストール中にこける もうね,ここまで来て私はようやくRAIDコントローラの障害と断定した どう考えてもRAIDコントローラ以外の障害発生点がない 漠然と「RAID = 安全」という図式があって 自分の中でRAIDコントローラに障害なんてないだろうと思ってた その変な思い込みのおかげで,障害箇所の発見にめちゃくちゃ時間がかかった これは深く反省orz 思い込みは人の思考を鈍らす わかってるはずのことだけど,なかなかいざというときには出てこないなぁ…… つーか,そもそもHDDあたりの障害で HDDに問題がなさそうならRAIDコントローラしか残ってないよね 問題の切り分けがへたくそだなぁ で,結果としてこの後RAIDコントローラを迂回させて HDDを直接M/BのSATA端子についないだら何事もなくCentOSインストールできましたとさ 今回の教訓: 思い込んだら負け 障害発生地点に近かった方から探る 問題が起こっても落ち着いて対処