yzkmc.fm

特に決まったテーマもなくだらだらと

フォールトトレラントコンピュータを読んだ。

 今日は、夕方から図書館に籠ってフォールトトレラント技術についての本を読んだ。お共は南谷著『フォールとトレラントコンピュータ』。こういう書籍は、どこから読んだと言えるんだろう。

フォールトトレラントコンピュータ (コンピュータアーキテクチャシリーズ)

フォールトトレラントコンピュータ (コンピュータアーキテクチャシリーズ)

 

  情報システムが普及するほどその信頼性は重要になる。システムが故障すれば、大なり小なり良くないことが起きる。その故障にどう対処していくか。

 部品に故障が起きないようにする技術をフォールトアボイダンス (Fault Avoidance) という。検査で故障の原因を取り除くことができれば理想的だけど、システムを稼働させている内に、どうしても故障は起きてしまう。そこで、故障が起きたとしても、正常な動作を維持できるようにする技術をフォールトトレランス (Fault Tolerance) という。

 

 システムのユーザは、システムに対して何らかのサービスを期待する。システム内部で故障 (Fault) が生じると、予期せぬ状態 (Error) につながる。この誤りがシステム外部まで達すると、期待されるサービスを提供することが出来ずに障害 (Failure) となる。このとき、誤りを検出し、訂正を行うことが出来れば、ユーザからは見えず障害とはならない。これがフォールトトレラント技術。

 フォールトトレラント技術は、誤り検出、静的冗長技術、動的冗長技術に分類できる。故障があったことが分かるのは、早くても誤りが生じてからだ。この誤りを正しく検出することが出来なければ対処できない。誤りを検出できたら、次は、誤りを隠蔽するか、誤りを除去する必要がある。前者が静的冗長、後者が動的冗長だ。

 

 『フォールトトレラントコンピュータ』では、フォールトトレランスの概要から、各フォールトトレラント技術までを解説している。フォールトトレランスについて知りたかったけど、ウェブ上に資料が少ないから、この本を読んだ。概要を掴むのにはいいと思った。ただ、解説中にいくつかの式が出てくるけど、どうやって使う式なのか、もう少し例か例題があるとよかった。

 

 いくつか挙げられてた例の中でも「航空管制用高度自動化システムは、緊急モードサービス状態では、システムが停止する確率が年間3秒」とか「1977年に打ち上げられたボイジャー2号は、修理もなしに12年間も宇宙を飛び続けた」ってのは純粋にすごいと思った。基礎の基礎の勉強しながらも応用はかなり進んでた。こんなことしてる場合ではないのでは、という気持ちになったまま帰宅した。明日はアルゴリズムの勉強がしたい。

 

 最後に、今のを犬として、今日の猿と雉を紹介しておきます。

フォールト・トレランス入門

フォールト・トレランス入門

 

 

システムの構造と特性 (シリーズ 現代工学入門)

システムの構造と特性 (シリーズ 現代工学入門)