資料の紹介
複数の就活支援サイトを展開するワンキャリアは、サービスの信頼性を担保し、障害が発生した際の原因と性能ボトルネックを早期に特定するために、インフラとアプリケーションの監視・分析を行うSaaSプラットフォームを採用。障害発生時の復旧時間を3時間から1時間以内に短縮するなどの成果をあげている。
同社はサービスをマルチクラウドで運用しており、以前はインフラ監視やエラー監視で複数のツールを使い分けていたため、障害発生時の対応に手間取ることがあった。そこで複数サービスを横断的に監視できる統合監視ツールの導入を検討。原因追及の時間を短縮するためにAPM(アプリケーションパフォーマンス監視)を導入することにした。
本資料では、ワンキャリアのSRE(Site Reliability Engineering)マネジャーに取材し、監視・分析プラットフォーム導入の経緯や選定理由、成果などを紹介する。各トランザクションのパフォーマンスが詳細に可視化されたことで、約10秒のレスポンスタイムが発生しているAPIを発見し、ボトルネックを解消して約1秒にまで短縮。障害復旧時間の短縮やサービスレベル目標の社内への浸透といった取り組みについても詳しく明かしている。





