システムの仕事をしていると、トラブルはつきものだと思います。
ソースコードのtypoやファイルのアップロードミス、その他諸々。業界に何年もいて、ひとつも経験したことの無い人なんて絶対にいないでしょう。
そういったトラブル、もちろんのことですが本来は起きてはならないものです。そして、そのほとんどが人的ミス(ヒューマンエラー)によって起こります。
では、どうやったらトラブルを未然に防げるのでしょうか?注意深く行うというのも当然必要なことですが、ヒューマンエラーは不可避のものだという意識を持つのも大切なことだと思います。今回は「信頼性工学」「安全工学」という分野のことをちょこっとだけご紹介します。
ITの世界ではまだそれほど普及していない視点なのかもしれませんが、機械工学などの世界ではちょっとした不注意が人の生命に関わる大事故に発展する可能性も少なくないため、昔からそういった分野の研究が進められています(もちろん、工場の生産ラインの稼働率を上げるためという目的もあります)。
学生時代の恩師がその分野の権威らしいので、著書を紹介しておきますね。ぱっと見た感じ、一般の人にはとっつきが悪い雰囲気ですが数式は全て読み飛ばしてもらっても十分に信頼性工学の発想は理解できる内容になっていると思います。
http://www.coronasha.co.jp/np/detail.do?goods_id=2055
トラブルを未然に防ぐにはどうしたらいいか。また、トラブルが発生した場合に影響を最小限に食い止めるにはどうしたらいいか。直接ITシステムのことが書かれているわけではありませんが、求められる発想は同じです。
信頼性工学のほかに、安全工学という分野もあります(共通する部分も大きいです)。こちらも検索すれば情報はたくさん出てくるのでもしよければ一度調べてみてください。
あと、JSTのサイトに「失敗知識データベース」というものが公開されています。事故事例なので面白いというのは少し不謹慎かも知れませんが、非常に考えさせられる内容になっています。