健康なサイトは健康なインフラに宿る~その3~

  • テクノロジー

本コラム「健康なサイトは健康なインフラに宿る」では、インフラにフォーカスした運用保守について2回に渡ってお送りしました。最終回となる今回は「3. 障害があったときに迅速に復旧するための準備」についてご紹介します。

障害があったときに迅速に復旧するための準備

いくら体力をつけ、バランスのよい食事、十分な休息・睡眠をとり、定期的な健康診断を受けたとしても、それでも健康を害するリスクをゼロにすることはできません。そのため、主治医を作っておく、健康保険に入っておく、といった「病気を避けられなかったときのための準備」をしておくことは普通に行われています。

インフラも同じです。普段から「1. 正常に動作しているかを確認」し、「2. 障害の芽を事前に摘む」。しかし、それでも障害は起き得ます。そのときのためにも「3. 障害があったときに迅速に復旧するための準備」は欠かせません。

では具体的にどのようなことが求められるかを見ていきましょう。

20170911_01.jpg

<監視体制>

基本的にWebサイトは24時間365日オープンしています。これは24時間いつでも障害が発生する可能性があり、いつでもその影響を受ける利用者がいる、ということでもあります。しかし、そのWebサイトを運営している会社が24時間動いているかといえばそうでないケースの方が多いでしょう。かといって、営業時間外は監視・対応をしない、となれば夜間や週末に発生した障害の影響が大きくなります。

そこで重要になってくるのが監視体制です。一般的には(1)自動化された定期監視、(2)異常検知時の24時間対応可能な監視スタッフによる目視確認、(3)原因の切り分け、(4)障害箇所によってデータセンターや機器ベンダーなど適切な対応が可能なベンダーにエスカレーション、というように段階的な対応・体制をあらかじめ決めた上で運用します。

特に現在の運用環境ではさまざまなベンダーがそれぞれの専門分野・得意分野のサービスを出しあい、組み合わせて一つのシステムを作っていることが多く、同じシステムの障害でも最終的に原因を解決できるベンダーは都度異なります。そのため各サービスベンダーによる個別の監視だけでなく、システム全体の知見を持ち、各社のサービスや責任範囲、ステークホルダーの運用方針まで考慮した上で、全体を見通せる監視体制を構築することが必要とされます。

<障害対応>

監視によって障害を検知しても、その後の対応ができなければ意味がありません。監視は常に障害対応の体制・手順とセットで考える必要があります。しかし、自動化や手順の標準化が可能な監視と異なり、障害対応は状況に応じてエンジニアが行わなければなりません。ときにはインフラエンジニアではなく、コンテンツも含めて熟知した顧客担当のアプリケーションエンジニアでなければ復旧が難しいこともあります。

そのようなエンジニアを24時間体制で待機させ、夜間や休日のサービスレベルを営業時間内なみにするにはコストがかかります。それだけのメリット・必要性があるのか、そうでなければ妥協点をどこにするのか、ということを考えた上で体制を作ります。場合によってはサイト自体を閉鎖するかどうかの判断を求められることもあるため、障害対応・体制の策定にはサイト運用責任者を含めた検討が必要です。

<バックアップ>

障害対応では原因を取り除いただけでは復旧できないこともあります。たとえばディスク障害が発生した場合はディスクを交換すれば原因は取り除けます。しかし、OSやミドルウェア、コンテンツなどのデータを元通りにしなければ障害前の状態にサービスを戻すことはできません。

そのためには日々のバックアップが重要です。バックアップには大きく分けてOSを含めたイメージバックアップ、日々更新されるデータのみのデータバックアップの2種類があります。イメージバックアップはディスクの交換やサーバーそのものの交換など、システムが真っさらになってしまった状態からの復旧時間を短縮することが目的で、データバックアップはある時点の状態にデータを戻すことが目的です。さらにデータバックアップでは1日前のデータ、2日前のデータ、というように複数世代のバックアップを取得し、操作ミスなどによるデータロストに備える場合もあります。

バックアップ先には別筐体のディスクや、物理的にサーバーから遠く離れたデータセンター内のストレージ、保存性を重視したテープなど、目的に応じて頻度・保存先・媒体を決定します。また、バックアップは常にリカバリとセットになります。リカバリが不可能なバックアップにならないよう、きちんとした方針のもとで計画・実行します。

昨今は地震をはじめとする災害リスクが高まり、「データセンター自体がサービス提供を続けられなくなる」という事態を考慮することが当たり前になってきました。バックアップと合わせて本番用サーバーと同様の機能を持つスタンバイ用サーバーを物理的に離れたデータセンターに用意するなど、DR(ディザスタ・リカバリ)を意識した構成も手の届きやすいものになりつつあります。

以上、インフラの運用・保守作業についてご紹介しました。もちろん、これらの作業がすべてのケースで必須というわけではありません。当然ながら手厚い運用・保守にはコストがかかりますし、場合によってはレンタルサーバー付属の監視サービスに作業工数に応じたスポット対応で十分な場合もあります。重要なのは求められるサービスレベルに応じて理想論、あるべき論ではない実際的な運用・保守体制を敷くことです。


関連コラム

健康なサイトは健康なインフラに宿る~その1~

健康なサイトは健康なインフラに宿る~その2~

この記事の執筆者

中島 秀明

インフラ・セキュリティ部 部長

この記事に関するご相談やご質問など、お気軽にお問い合わせください。

お問い合わせ

タグ一覧