現場ですぐ解消できる軽微なものから、ニュースで報じられるような深刻なものまで、システム運用にトラブルは付きものだ。この連載では、システム運用の経験豊富な筆者が様々なトラブル事例を題材に、「なぜ発生したのか」「どうすれば発生を防げたか」を考える。

システム運用「トラブル」劇場
目次
-
順調だったはずの基幹系刷新プロジェクト、稼働後に現場が大混乱のワケ
「いったいどうなってるんだ!!」耳元で怒声が響き、坂本は跳び上がった。製造現場の責任者からだ。「新システムで在庫を登録する方法が全然分からない。現場も混乱してるし、これじゃ残業だらけになってしまう。どうにかならないのか!」
-
Apacheの脆弱性から情報漏洩、最悪の事態を招いた「判断ミス」とは?
「間に合わなかったか…!」。金融大手W社で、CSIRTのリーダーを務める安藤は、情報漏洩が確認されたという最悪の知らせに、思わず床にへたり込んだ。「自分たちの努力はいったい何だったのか」「何が足りなかったのか」。パニックになりそうな頭で、安藤はこの3日間の出来事を思い起こしていた。
-
期待の集客キャンペーンが一転、システムの急所が露呈する惨事に
「どこまで伸びるかなあ」。外食チェーンなどを展開するZ社で販促企画を担当する溝口は、期待と緊張の朝を迎えていた。コロナ下のニーズをとらえ、テイクアウト商品などの売り上げを伸ばしたZ社は、顧客への感謝として割引クーポンを配布するアプリをリリース。それが開始前から、SNSなどで予想以上の反響を呼んでい…
-
サーバー仮想化の1年後に露呈、「分業」が招いた思わぬ死角とは
中堅の精密機械部品卸、X商事の経理部でアプリ保守を担当する正木と酒巻の1日は、夜間バッチの確認から始まる。何らかの原因で停止していた場合、販売部門がシステムを使い始める10時までに、エラー対応と再実行を終えなければならないからだ。だが、その日は朝から不穏な空気に包まれていた。
-
予備機に切り替わったのにまさかのサービス停止、いったい何が?
ある平日の深夜、日付が変わったころのこと。金融サービス会社のIT部門で顧客向けWebサービスの運用責任者を務める田村のスマートフォンが鳴った。障害対応を担当する小島からの緊急連絡で、30分ほど前から契約者向けポータルにアクセスできない状態だという。