2004年07月14日

サルベージ

ウチのサーバのディスク容量は合計 640GB で、今回壊れた HDD は 80GB でした。
(今回のディスクの交換によって 720GB に増えます)
この超巨大な容量というのは個人ではバックアップ不可能です。
会社とかなら、テープライブラリとかでバックアップするのも良いでしょうが、
個人でそんなものは持ってませんし、そんな予算もありません。
なので「壊れたら終わり」です。

私はサーバ管理も行っている SE ですので、
HDD が消耗品であることは理解しています。
しかもバックアップが無いため常に背水の陣です (-_-;;
そのため壊れて無くても 2 年で HDD をかえてました。
毎年大体 2 本ずつ買って、
1 年目はシステムドライブやテンポラリドライブやサーバ処理を行う
ディスクとして割り当て (最新 HDD のほうが速度が速いのが主な理由)
2 年目に型落ちになったら、負荷の低めのストレージ用途部分にして、
3 年目は処分 (友達に譲ったり、トラブル時の保険にしたり)
というローテーションをさせてました。

そして今回壊れたのはそろそろ 3 年目に入る HDD で、
もうちょっと保っていてくれてたらと残念です。
残念に思っても治るものでもないので、とりあえず、現在データサルベージ中です。
今まで何度となく自分の HDD が壊れましたが、
その中でサルベージに失敗したこと無いことが自慢です。
(一部のロストはあっても全部が消えたことはありません)
今回はこの自慢のサルベージについて、ポイントを簡単に書きたいと思います。

  1. HDD にエラーが起こったら、速やかにスキャンディスクを実施する。
  2. スキャンディスクでエラーが修復できてもできなくても、
    無くなっては困るデータの最優先のものから物理的に他のディスクにコピーする。
    壊れて HDD が認識されなくなるのは時間の問題だと意識してください。
    # 今回は 3 時間ほどで HDD が認識されなくなる事態になりました
  3. エラーの出た HDD にはサルベージ以外の負荷がかからないようにする
    複数のスレッドからのアクセスなどはもってのほかです。
    # 今回は別のマシンでほぼシングルタスクでサルベージしてます
  4. 特にエラーが出ているのが、起動ドライブであった場合は、
    そのディスクからの OS の起動は禁止。
    OS の起動ドライブだと、負荷的な問題で、恐ろしい勢いで HDD が壊れていきます。
    別のディスクに OS を入れた後、その OS からサルベージしてください
    # OS の入れなおし中は物理的に HDD を外しておいてください
  5. ここまで初期の対応です。
    この対処の早さがサルベージの成否にかかわります。
    この辺は人の生き死にに近いものがあると思います。
  6. 起動時に HDD が認識されなくなったら、
    Windows 系 OS からのスキャンディスクも禁止です。
    スキャンディスクをする余裕も無いので、HDD が認識されるまで再起動を繰り返し、
    HDD が認識されたら、ファイル単位でコピーしてバックアップしてください。
    移動ではなくコピーで行って負荷を高めないようにしてください。
  7. どうしても読み取れないファイルがあると、そこで OS がエラーをだすので、
    その部分を記憶して、その部分はコピー作業を行わないようにしてください。
  8. コピーが一通り終わったら、コピーできなかった部分だけが
    ロストした状態になるはずですので、最低限ここまでは目指してください。
    運にも寄りますが、HDD を冷やしたり (特に夏)、
    手でスピンアップを手助けしたり (HDD まるごとを回す) すれば、
    一晩でここまではサルベージできるはずです。
  9. ここまででバックアップできなかった部分の復旧に最後の賭けを行います。
    HITACHI (IBM) の HDD の場合は Drive Fitness Tool というものが使えて、
    コレを使うとかなりの割合で復元できますので試してみましょう。
  10. あとは運しだいです。
    運良く復旧できたら、ロストなしです。
    祈りましょう。

現在のところ、 50GB ほどサルベージできました。
残り 20GB ほどが難航しています。
はぁ・・・。がんばります・・・。

Posted by k-square : 2004年07月14日 01:33 | WebSite
コメント

640GB !?
そりゃ、確かに、バックアップ出来無さそう…。
# というか、そんなけも、何に使ってるん?
 映像やったら、そのぐらいの容量、軽く食うねやろけど、k-square さん、テレビ見いひん言うてたし…。謎や…。

Posted by: Donkoh : 2004年07月16日 07:24

こんにちは

 HDD復旧お疲れ様です。

 私も、7月初旬、HDDを1本破壊してしまいました。
 即死です、エラーも何も前兆無く、突然切り離され、以後全く認識できず。

 もちろん、冷却模してみたんですが駄目ですね。

 今まで、ディスククラッシュは、何回も経験している\r
のですが、完全に壊れる前に、なんとかレスキュー
できていたので、今回はショックです。

 更新頻度の高いものは、ちゃんとバックアップを取ろうと思い、Cygwinでシェルをかいているときにここを見つけました。
 
 ここにを見つけることができたのは、クラッシュのおかげ?

Posted by: ふぃらく : 2004年07月29日 14:12

ディスククラッシュは私のサイトを見つけるためだったのかな?(笑)
Cygwin コンテンツなら多少は書いてますので、
参考にしてくださいー。

HDD の冷却はスピンドルモータだったりチップだったり、
問題と思われるところを個別に冷却しましょうー。
扇風機や冷房じゃ足りなかったりします。
今回は保冷剤を引っ付けてチップを冷やしました☆

Posted by: k-square : 2004年07月30日 01:18

RAID5は検討対象外?
昔に比べると大分安くなったし、
価格・利用効率・速度・安全性の
重視するバランスは人によるだろうけど、
データ保存領域としては多分最良じゃないかと。

4本くらいで組んでおけば夏場のクラッシュも平気だよ。

Posted by: Anony : 2004年08月08日 18:24

RAID5 は HDD が一つ壊れたときに、
リビルドのために同じ形式の HDD を準備するのが難しいことと、
(おそらく 2 年後とかになるので普通手に入りません)
RAID カードが壊れたら全て終わりになることと、
ディスクパフォーマンスが悪くなることが、
(ランダムアクセス及び write )
検討対象外になる理由です。
(もちろん金銭的に高くつくのも原因です)

ちゃんと保守に入るなら RAID5 がかなり良い
ソリューションになりえるけれど、
個人で維持するには不向きだと思いますー。

ソフトウェア RAID は OS が動かない間は、
完全に無力なので、私はとても怖いと感じます。
(それにパフォーマンスも悪いし・・・)

Posted by: k-square : 2004年08月09日 22:58

こないだHDD飛んだけど、異種ディスクでも特にトラブル無くリビルド完了。
だいぶRAIDボード安くなってるし、2枚(1枚予備)買っといて、ボード1枚死んだらもう1枚のボードでデータサルベージして、更に安くなっているであろう別のボードに乗り換えるのが吉。
最近のボードならディスク順々に入れ替えれば容量増も後付で対応可。単品ディスクの集合よりは、計算上耐障害性は高いものと思われまする。
スピード云々はデータ取っていないのでなんとも言えず。

Posted by: Anony : 2004年09月25日 03:11

なるほどねー。そういう使い方だといいのかも。
Serial ATA で 6 タマ以上で RAID とか組めるなら、
乗り換えてもいい気がする〜。
(現在 HDD 5 台)
ちゃんと使えるように設計した RAID5 は私も好きだし。

ただ気になるのは RAID5 が Write Through だと
体感できるほどおそくなること。
特に書き込み。
Write Back だと大幅にパフォーマンスが改善されるけど、
突然の電源断に対しての対処 (バッテリとか) が
必要になってくるしそのオプションが高いでしょ?
うーん。悩みどころ。

現状のサーバの CPU が結構振り切れることが
多くなってきてるので、次期サーバの予定があります。
そのときは視野に入れてみますー!!

Posted by: k-square : 2004年09月25日 05:12
コメントする









名前、アドレスを登録しますか?