Boxをサービスプロバイダおよびパートナーとしてご利用いただきありがとうございます。 Boxでは、何らかのカスタマーエクスペリエンスに影響を及ぼすような事態が発生した場合には告知を行っております。 Boxサービス内やBoxサービスを通じて発生した事象に関する情報を、計画的なメンテナンスであるか予期しないサービスの低下や停止であるかにかかわらず、お客様に確実に提供するよう心がけております。
カスタマーエクスペリエンスに影響を及ぼすイベントへの対応
Boxのネットワークオペレーションセンター (NOC) で潜在的なサービスの問題が検出されると、原因とその解決方法に関する調査が速やかに開始されます。 最初に行われるタスクの1つが、お客様に対する影響の予測と発生している影響の把握です。 このアクティビティは、Box Statusサイトをできるだけ速やかに更新できるように、短時間で実施されます。
Boxでは、事象が発生してから60分以内にStatusサイトを更新することを目標にしていますが、イベント通知によっては、この目標時間を超過する場合があります。 できるだけ効率的に作業を実施するために、Boxでは次のガイドライン*に従って投稿する内容とタイミングを決定します。
停止 | 重要 | 大 | 小 | |
ログイン (ウェブ/SSO) |
はい | はい | はい | はい |
管理コンソール: ユーザー管理 |
はい | はい | はい | いいえ |
管理コンソール: 自動化 |
はい | はい | いいえ | いいえ |
*この表はガイドラインを示しています。 Statusサイトで通知するまでの対応時間とその判断は、必ずしもこの表に従っているとは限りません。
- 停止 = コンポーネント/サービスが利用できず、回避策がない。
- 重大 = コンポーネント/サービスの機能が大幅に低下しており、監視機能によると、失敗率または望ましいスループットへの影響度が50%を上回っている。
- 大 = コンポーネント/サービスの機能が大幅に低下しており、監視機能によると、失敗率または望ましいスループットへの影響度が25~50%の範囲内にある。
- 小 = コンポーネント/サービスの機能が大幅に低下しており、監視機能によると、失敗率または望ましいスループットへの影響度が25%を下回っている。
調査が実施されている間は、上記のガイドラインに照らし合わせ、お客様への影響が継続的に確認、評価されています。 新しい情報が見つかると、それに合わせて影響度と重要度が調整されます。
Box Statusサイトの目的は、少なくとも30~60分間隔で、またはステータスが大幅に変化した際に、定期的に問題に対する状況の更新を行うことです。 これらの更新には、影響を受けているサービスや推定影響時間など、カスタマーエクスペリエンスに対する既知の影響がすべて含まれます。 また、可能な場合は、予想される回避策、修正の進捗状況やアクション、回復までの推定所要時間などの追加情報も共有されます。
インシデントのステージ
いくつかの例外を除き、Box Statusサイトに掲載されるイベントの大半は以下の4つのステージから成るインシデントプロセスをたどります。
- Investigating (調査中) - カスタマーエクスペリエンスへの影響を示す最初の通知をBoxが受信した後、ほとんどのイベントはこのステージから開始されます。 この「Investigating (調査中)」ステータスは、現在の状態を引き起こした原因が特定され、影響を受けているサービスの可用性と安定性を回復するためのアクションプランが特定されるまで継続されます。
- Identified (特定済み) - 直接的な原因が判明すると、ただちに問題への対処が開始され、そのアクションが再発防止につながるかどうかが確認されます。
- Monitoring (監視中) - 修正が完了し、影響を受けているサービスが期待されるレベルまで戻ったことが分析によって認められると、このステージに進みます。 イベントによっては、複数のタイムラインやさまざまな条件にわたって修正の効果が確認されるまで、このステージが延長されることがあります。
- Resolved (解決済み) - 監視期間中に確認された結果に基づき、カスタマーエクスペリエンスが期待されるレベルまで回復したことが確認されると、このステージに移行します。
サービスとサブコンポーネントのステータス
上記のインシデントステージと合わせて、Boxでは特定のサービスまたはサブコンポーネントへの影響についても可能な限り特定します。 これらのステータスには以下のものが含まれます。
- 稼働中 (緑色のドット) - サービスはオンライン状態で、期待された水準内で機能しています。 まだ調査が進行中の場合や、最終ステージに到達していない場合でも、サービスは稼働中と表示される場合があります。
- 機能低下中 (オレンジ色/黄色のドット) - サービスは稼働していますが、期待される水準を満たしていません。 この状況には、Boxウェブアプリの読み込みに通常よりも時間がかかる場合や、デスクトップクライアント (SyncとDrive) に新しいイベントや変更が届くまでの時間が通常より長くなっている場合などが含まれます。
- 停止 (赤色のドット) - サービスがすべて停止しているか、部分的に停止している状態で、お客様がタスクを完了したり、Box内の重要なコンポーネントにアクセスできなくなっています。
カスタマーエクスペリエンスの監視
Boxでは、重要な業務の一環として、サービスの可用性と、包括的なカスタマーエクスペリエンスの実現度という、2つの主要な指標を継続的に計測しています。 プレミアサービスのお客様 (詳細はこちら) の場合、前者の指標は、サイトのアップタイムとして契約内容にも含まれていますので、よくご存じかと思います。 後者については、お客様の最も重要なニーズをエンドツーエンドで満たすために、Boxが責任を持って取り組んでいます。 簡単に説明すると、Boxによる追跡は、SLAコミットメントを超えて実施されています。
これらの目標を達成するために、Boxではさまざまな継続的監視ツールやアラートツールを使用してカスタマーエクスペリエンスを監視し、保護しています。 Boxでは、ユーザートランザクションをリアルタイムで確認するために、個々のBoxサーバーや、シンセティックモニタリング*エージェントのシステム、コレクションメカニズムなどに対して、複数のチェックを実施しています。 これらのチェックを実施することにより、Boxでは、お客様に影響を及ぼす可能性が高いものの、お客様にはまだ影響していない問題や機能低下の兆候を早期に発見することができます。 これらのチェックを通じてサービスの実行に関わるサブコンポーネントの正常性とパフォーマンスが計測されることにより、インシデントの発生を防止することが可能となっています。 また、各チェックの出力は、時系列順のデータベースにも記録されるので、傾向の推移も確認することができます。
さらに、Boxでは、実際のユーザートランザクションの追跡データも収集しています。 これは、すべてのホスト上のすべてのサービスにおけるBoxユーザーの実際の操作を継続的に監視し、収集した、時系列順のデータです。この出力は、お客様がBoxを利用する際、実際にどのようなことが起きているのかを示す指標になります。 この出力により、ある時点でBoxのサービスに発生したエラーの総数や、Boxを正常に利用できているユーザーの数を正確に計測することができます。
*シンセティックモニタリングは、ウェブサイトを監視する方法の1つであり、エミュレートされたウェブブラウザ内でスクリプト化されたアクションを使用することで、ログインや共有リンクのプレビューをはじめとするユーザーの主要な操作をシミュレートします。 シンセティッククライアントが、内部および外部のさまざまなポイントから、1分おきにさまざまなチェックを実行します。 こうすることで、さまざまな地域からの特定の入力に対して、Boxサービスが適切に応答しているかどうかを特定できます。
定期/計画的メンテナンス
Boxのデータセンター内または特定のサービスに対して変更の実施が必要になる場合があります。 これらのアクティビティによりユーザーへの悪影響やダウンタイムが発生することをBoxは想定していませんが、このような性質のアクティビティが発生する場合は、必ずお客様にお知らせするよう心がけています。 Boxは、メンテナンス期間中とその直後に、Boxサービスのステータスを綿密に監視します。 Box Statusサイトでは、サービスのステータスが変化した場合の最新情報だけでなく、メンテナンスについての最新情報も共有されます。
根本原因と不具合の修正
お客様に影響しているイベントの修正/安定化の直後に、Boxのエンジニアリングチームによる事後レビューが開始されます。 このプロセスでは、イベントのタイムライン全体、根本原因の検証、特定された不具合の修正方法、所有者など、全詳細を徹底的に調査します。 このプロセスの結果は、完了するとすぐに、Statusサイトの関連する投稿に再度掲載されます。