2004年11月23日

かなりの停止。

昔は (今も?) Web サーバがよく長時間落ちてました。
そのころを知っている人は特に何も思わないかもしれませんが、
最近はあまりサーバの長時間の停止がなくなってきていたので、
約 1 週間にわたる停止はなかなかの波紋を呼びました。
一部の人には閉鎖したのかと思われたり・・・(笑)

まぁ、とはいっても身内 (血がつながったという意味ではなく) だけだし、
業務で使っているわけでもないので、特に問題はないわけなので、
「ゴメンナサイ」で許してもらいましょう☆\n

さて、今回のサーバ停止は HDD のトラブルに端を発します。
もともと 24 時間運転の上に、HDD を 5 台もつんでいると、
通常の PC の 15 倍ぐらいの頻度で HDD が壊れるわけです。
# 24時間/8時間 * 5台 の計算です
この前も壊れてたので、実感として皆さんも理解していただけるかもしれません。

このままではメンテナンスもタイヘンだし、
何より壊れたときのデータのサルベージが大変です
# ホントに大変なんです・・・(-_-;;
とりあえず、壊れた HDD からのサルベージを実施し、
データの退避を完了した後で、
根本的な問題の対処として RAID5 を導入するにあたっての調査を開始しました。
さて、そのソリューションですが、金額として SCSI での RAID5 はありえないです。
となると、S-ATA の RAID5 となるのが妥当でしょう。

ココまで決まったら、あとは S-ATA の HDD の選定と、
RAID カードの選定ですが、私には「静音」という大きな制約があります。
つまり、HDD が SmartDrive におさまることが必須。
というわけで、調査を続けたところ、

  1. コネクタ部分のサイズが小さい SerialATA ケーブル

  2. 4 pin の電源ケーブルがつかえる HDD

の両者を用いることで簡単に利用することが可能と判明しました。
ここまでで約 2 日。
# 実質、サルベージでほとんどの時間を使ってます


次は RAID カードの選定ですが、2ch の IDE RAID カードあれこれ RAID 13
大変参考になりました。
評価対象に上ったのは以下の 4 品でした。
Escalade 3W-9500S-8 (3ware)
Escalade 3W-8506-8 (3ware)
RAIDCore BC4852 (BroadCom)
Serial ATA RAID 2810SA (Adaptec)

評判のよさから 3ware の 2 製品のうちのどちらかが良かったのですが、
とっても価格が高ったため、一番やすい RAIDCore BC4852 を購入することにしました。
参考ドキュメント↓を読んでいただければ、多分皆様も納得です。
Escalade 3W-8506-8
RAIDCore BC4852 (昔は RC4852 でした)
Serial ATA RAID 2810SA
安い上に早いからという、単純な理由です(笑)


HDD は昔から利用している Hitachi (IBM) 製の 250GB を 4 本です。
規格上 RAID5 は HDD 3 本から利用でき、それでもいいのはいいのですが、
1 にパフォーマンスが悪い (特に書き込み) 点の緩和と、
2 に HDD が 1 台障害時のリビルドの負荷軽減のために、
4 本 RAID と決定しました。
ここまででさらに 1 日。


残りの 3 日間はディスクの初期化と、動作確認と、パフォーマンステストです。
初期化に 20 時間以上かかったり、
RAID5 を BOOT ドライブにした場合のパフォーマンスの悪さを体感したり、
NTFS のクラスタサイズを大きくした際の CPU 負荷の高さを体験したり、
Drive Image でのコピーに失敗したり、
M/B の PCI の初期化順がならび順でないことを知る必要があったり、
Write Back キャッシュを切った際のディスクの挙動に負荷が高そうな面があったり、
テストだけあって、たくさんのことを体験しました(笑)
この経験で多くのことを学べるわけですが、
正直なところ、最近は面倒です・・・(-_-;;

というわけで、たくさんの時間がかかりましたが、
ようやく復旧しました。
ウチのアカウントを持っている人はどうぞ使ってください。
ディスクの空き容量を確認して喜んでください(笑)
# 現在 1TB (テラバイト) を超えています

Posted by k-square : 2004年11月23日 03:27 | WebSite
コメント
コメントする









名前、アドレスを登録しますか?