今回のトラブル事例

 中堅の精密機械部品卸、X商事の経理部でアプリ保守を担当する正木と酒巻の1日は、夜間バッチの確認から始まる。何らかの原因で停止していた場合、販売部門がシステムを使い始める10時までに、エラー対応と再実行を終えなければならないからだ。特に月曜日は、土日に週次の集計処理が行われるため、少し早めに出社する。だが、その日は朝から不穏な空気に包まれていた。

 「あれ?なんかバッチ完了通知のメールが少ないな…」。酒巻の問いかけに、アプリのログをチェックしていた隣席の正木は、「週末バッチがそもそも動作開始していないぞ。金曜夜の夜間バッチがなぜか終わってなくて、その後が全滅している…」と、半ばぼう然とした表情で答えた。

 X商事が仮想化基盤を導入して約1年。それ以前も含め、このような事態は記憶にない。金曜日の夜に何か起きたのだろうか。正木が思案していると、X商事のシステム課でインフラ管理を担当する武田がサーバー室から出てきた。この時間に出社しているのは珍しい。早速つかまえて聞いてみることにした。

 武田によると、金曜の深夜に仮想基盤のホスト3台のうち1台(1号機)が突然、ハード故障のためリブートしたという。だが、1号機で稼働していたVM(仮想マシン)はほどなく、ホスト3号機上で自動的に再起動したので、大きな問題はないと武田は考えていた。X商事でアプリ管理を担当する経理課の長尾にも、業務サーバーが再起動したことを電話で伝えてあり、今日早く出勤したのは別件のためという。

 「つまり、土曜の明け方に複数台のアプリサーバーが同時に再起動したってことですよね…」。やっと直接の原因に合点がいった正木だが、困惑の表情を隠しきれなかった。

 そのとき、武田の携帯電話が鳴った。武田は会釈して離れていったが、その間にも話し声は緊張を帯び、「だからOSは5分程度で戻っていて…」「そこは電話でお伝えしてましたよね」「…いえ、こちらも甘く考えてはいないですよ」といった会話の断片が聞こえる。どうやらアプリ担当の長尾からのようだ。

 長尾も、サーバーがリブートしたと聞いた時点で、週末のバッチ処理がどうなったかを確認すればよさそうなものだが、そこまで考えが至らなかったのか。あるいは、武田からの「継続して動作している」という連絡に、バッチ処理も継続していると思い込んでしまったのか。電話での応酬もそのあたりの話だろう。

 バッチの再実行はこれまでにもあったが、今日に限っては数が多すぎる。システム課の社員は、社外から基盤を管理するためのリモートアクセスが可能だが、協力会社の自分たちには権限が与えられていない。いっそのこと週末に呼び出されて日曜日のうちにリカバリーしたほうが楽だったろう。

 今日のオンライン開始は9時を過ぎてしまうどころか、昼すぎに復旧できれば上出来なのではないか。そう思いながら、正木は酒巻とバッチ再実行の準備に着手した。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。