第4回:健康なサイトは健康なインフラに宿る
~その3~

本コラム「システム運用って必要なんですか?」ではインフラ編として、「健康なサイトは健康なインフラに宿る」と題し、インフラにフォーカスした運用保守について2回に渡ってお送りしました。最終回となる今回は「(3) 障害があったときに迅速に復旧するための準備」についてご紹介します。

いくら体力をつけ、バランスのよい食事、十分な休息・睡眠をとり、定期的な健康診断を受けたとしても、それでも健康を害するリスクをゼロにすることはできません。

そのため、主治医を作っておく、健康保険に入っておく、といった「病気を避けられなかったときのための準備」をしておくことは普通に行われています。

インフラも同じです。普段から「(1) 正常に動作しているかを確認」し、「(2) 障害の芽を事前に摘む」。しかし、それでも障害は起き得ます。そのときのためにも「(3) 障害があったときに迅速に復旧するための準備」は欠かせません。

では具体的にどのようなことが求められるかを見ていきましょう。

監視体制

基本的にWebサイトは24時間365日オープンしています。これは24時間いつでも障害が発生する可能性があり、いつでもその影響を受ける利用者がいる、ということでもあります。しかし、そのWebサイトを運営している会社が24時間動いているかといえばそうでないケースの方が多いでしょう。かといって、営業時間外は監視・対応をしない、となれば夜間や週末に発生した障害の影響が大きくなります。

そこで重要になってくるのが監視体制です。一般的には(1)自動化された定期監視、(2)異常検知時の24時間対応可能な監視スタッフによる目視確認、(3)原因の切り分け、(4)障害箇所によってデータセンタや機器ベンダなど適切な対応が可能なベンダにエスカレーション、というように段階的な対応・体制をあらかじめ決めた上で運用します。

特に現在の運用環境ではさまざまなベンダがそれぞれの専門分野・得意分野のサービスを出しあい、組み合わせて一つのシステムを作っていることが多く、同じシステムの障害でも最終的に原因を解決できるベンダは都度異なります。そのため各サービスベンダによる個別の監視だけでなく、システム全体の知見を持ち、各社のサービスや責任範囲、ステークホルダーの運用方針まで考慮した上で、全体を見通せる監視体制を構築することが必要とされます。

障害対応

監視によって障害を検知しても、その後の対応ができなければ意味がありません。監視は常に障害対応の体制・手順とセットで考える必要があります。しかし、自動化や手順の標準化が可能な監視と異なり、障害対応は状況に応じてエンジニアが行わなければなりません。ときにはインフラエンジニアではなく、コンテンツも含めて熟知した顧客担当のアプリケーションエンジニアでなければ復旧が難しいこともあります。

そのようなエンジニアを24時間体制で待機させ、夜間や休日のサービスレベルを営業時間内なみにするにはコストがかかります。それだけのメリット・必要性があるのか、そうでなければ妥協点をどこにするのか、ということを考えた上で体制を作ります。場合によってはサイト自体を閉鎖するかどうかの判断を求められることもあるため、障害対応・体制の策定にはサイト運用責任者を含めた検討が必要です。

バックアップ

障害対応では原因を取り除いただけでは復旧できないこともあります。たとえばディスク障害が発生した場合はディスクを交換すれば原因は取り除けます。しかし、OSやミドルウェア、コンテンツなどのデータを元通りにしなければ障害前の状態にサービスを戻すことはできません。

そのためには日々のバックアップが重要です。バックアップには大きく分けてOSを含めたイメージバックアップ、日々更新されるデータのみのデータバックアップの2種類があります。イメージバックアップはディスクの交換やサーバそのものの交換など、システムが真っさらになってしまった状態からの復旧時間を短縮することが目的で、データバックアップはある時点の状態にデータを戻すことが目的です。さらにデータバックアップでは1日前のデータ、2日前のデータ、というように複数世代のバックアップを取得し、操作ミスなどによるデータロストに備える場合もあります。

バックアップ先には別筐体のディスクや、物理的にサーバから遠く離れたデータセンタ内のストレージ、保存性を重視したテープなど、目的に応じて頻度・保存先・媒体を決定します。また、バックアップは常にリカバリとセットになります。リカバリが不可能なバックアップにならないよう、きちんとした方針のもとで計画・実行します。

震災後は「データセンタ自体がサービス提供を続けられなくなる」という事態を考慮することも珍しくなくなってきました。バックアップと合わせて本番用サーバと同様の機能を持つスタンバイ用サーバを物理的に離れたデータセンタに用意するなど、DR(ディザスタ・リカバリ)を意識した構成も増えています。

以上、インフラの運用・保守作業についてご紹介しました。もちろん、これらの作業がすべてのケースで必須というわけではありません。当然ながら手厚い運用・保守にはコストがかかりますし、場合によってはレンタルサーバ付属の監視サービスに作業工数に応じたスポット対応で十分な場合もあります。重要なのは求められるサービスレベルに応じて理想論、あるべき論ではない実際的な運用・保守体制を敷くことです。

次回よりアプリケーションにフォーカスした運用・保守についてご紹介します。

お問い合わせ

Web戦略策定からサイト構築、オペレーションまで、最適なワンストップのソリューションを提供します。
お気軽にお問い合わせください。

ウェブロイヤリティスコア(WLS)
オウンドメディアの総合力を3つの評価によって可視化することで、オウンドメディアを通じた顧客ロイヤリティ、さらにはそこに影響を与える要因についても客観的に把握し改善につなげることが可能です。
ユーザビリティ診断
徹底したユーザー視点でWebサイトのユーザビリティを100点満点でスコアリングすることで、Webサイトのユーザビリティの問題点を客観的に把握することができます。競合サイトとの比較や、リニューアル前後の比較も可能です。
Insight Finder
Insight Finder
トライベックのUXフレームワークに基づいたリモートユーザーテストにより、従来のユーザー調査に比べて短期間・低コストで、サイト来訪からコンバージョンに至るまでのユーザー行動プロセスにおける“インサイト”を浮き彫りにします。