さくらのクラウド

                                                       2012年03月19日掲載


                   障  害  発  生  の  お  知  ら  せ


                                        さくらインターネット株式会社


 平素よりさくらインターネットをご利用いただき、誠にありがとうござ
 います。
 本日、ご提供サービスにおきまして、以下の通り障害が発生しておりました。
 ご利用中のお客様には大変ご迷惑をおかけいたしましたことを深くお詫び
 申し上げます。


                                < 記 >


   発生日時 : 2012年03月19日9時55分~18時40分
   影響範囲 : さくらのクラウド
   障害内容 : 断続的にストレージに書き込めない状態になっておりました。

【2012年3月21日21時36分 追記】

影響範囲 : さくらのクラウドの一部機能
       ・サーバの作成・削除
       ・ディスクの作成・削除
       ・スナップショットの作成・削除

障害内容 : 上記操作に時間を要する、もしくは失敗する場合がございます。


【2012年3月21日 18時12分 追記】
本日(21日)の11時頃から現在まで「ディスク/スナップショット」の新規作成・
削除ができない状態が発生しております。また、ディスクが作成できないため
新規でサーバの作成ができない不具合も発生しております。
http://support.sakura.ad.jp/mainte/newsentry.php?id=7005

また、この障害の影響により、再度ストレージのパフォーマンスが低下する現象が
発生しております。

現在、こちらのパフォーマンス低下について調査を行っております。


【2012年3月20日 16時54分 追記】


■19日の障害が長期間に渡った原因につきまして
 ファームウェアの適用後にストレージを起動したところ、ストレージへの
アクセスをブロックする現象が発生し、これにより、ストレージを立ち上げ
ても短期間のうちに利用できなくなる状況が発生しました。

 原因調査の結果、ストレージのプライベートテンプレート作成に関係する
機能が原因であると判明し、該当機能を無効にする事で正常にストレージが
起動できるようになりました。

 現在、該当機能を無効にする事により「プライベートテンプレート」の作成
が利用できなくなっています。現在、こちらの機能を利用せずプライベートテ
ンプレートの作成機能が実現できないか検討をしております。

 原因の特定に時間がかかり、長期間にわたり障害が継続した事を深くお詫び
いたします。


■ストレージのパフォーマンス低下の原因につきまして

 19日の障害が収束した後もストレージにパフォーマンス低下が見られました。
原因を調査したところ、昨晩実施いたしましたファームウェアのアップデート
に伴い、ストレージのキャッシュがクリアされたため、ストレージの復帰後の
集中アクセス時に想定以上の負荷がかかる状態となりました。

 ストレージのパフォーマンスについては、キャッシュが溜まるにつれ状況は
改善する見込みです。また、ストレージメーカーによる状態の調査およびチュ
ーニングを実施しておりメンテナンス以前のパフォーマンスは回復しつつあり
ます。

 しかし、現状でも一時的にストレージの負荷が高まる現象を確認しておりま
す。これを解消すべく、引き続き原因調査とチューニングを実施していく予定
です。

【2012年3月20日 11時24分 追記】
現在チューニングを行い、パフォーマンスの向上を確認しております。引き続き、
チューニングを行い正常化を目指しております。


【2012年3月20日 00時10分 追記】
ストレージのパフォーマンスについて、現在ストレージメーカの米国及びヨーロッパ
において調査をしております。本日(3/20)の午前11時頃を目途に調査結果等をご報告
させていただく予定です。


【2012年3月19日 20時01分 追記】
19時15分頃からパフォーマンスに問題が生じている事象を確認いたしました。
問題の解消のため、現在、ストレージメーカとの協議に入っております。

【2012年3月19日 18時58分 追記】
18時40分にストレージの復旧を完了いたしました。
ご迷惑をおかけして大変申し訳ございませんでした。


【2012年3月19日 18時16分 追記】
先ほどご報告をいたしました通り、現在「プライベートテンプレート」作成の
機能を一時的に停止いたしまして、サービスの復旧を試みております。

復旧の時間は19時を見込んでおります。

【2012年3月19日 18時06分 追記】

調査の結果、現在の障害の原因として「プライベートテンプレート」を作成する
機能に不具合が生じたため、ストレージシステムに過大な負荷がかかり、スト
レージに問題が生じておりました。

現在、一時的に「プライベートテンプレート」を作成する機能を停止し、スト
レージシステムの復帰を目指しております。



【2012年3月19日15時50分 追記】

<本日発生している障害について>

■ 発生している問題
  さくらのクラウドで使用しているストレージに対し、従来の課題を解決でき
  るものとしてリリースされたファームウェアを適用いたしました。
  新ファームウェア適用後のストレージにおいて、ストレージへアクセスされ
  た際に生成されるスレッド数が上限に達し、本件障害に至りました。

■ 発生している症状
  スレッド数が上限に達した事で、新たなリクエストを受付できない状態が発
  生いたしました。これによりご利用中サーバ側ではディスクに対する読み込
  み/書き込みが出来ず、結果として以下のような症状が確認されております。
   ・コントロールパネル上でディスクが関係する操作ができない
   ・サーバのロードアベレージが上昇する
   ・新規SSH接続が開始できない
   ・各種アプリケーションが動作できない
   
  ※ 3月13日以降に新しくアカウントを作成されたお客様については
  障害が発生しているストレージとは別のストレージを使用している
  ため、上記の不具合は発生しておりません。

■今後の対応
  現在、早急に復旧を目指し各種パラメーター調整及びファームウェアの
  ロールバックを実施し、現在、復旧に向けて各サーバの調整を行ってお
  ります。
  
  対応状況につきましては、引き続き速やかにお知らせいたします。
  

<ストレージの問題に関するこれまでの経緯と対応状況について>

■経緯
  さくらのクラウドでは昨年末よりストレージの不具合に起因する負荷の増大、
  アクセスの支障が発生しております。この対処のため、ストレージのメーカ
  と原因の究明と回避策の適用を進めて参りました。
  その結果、原因を根本的に解決できるファームウェアのリリースが行われた
  ことから、本日のメンテナンスを計画いたしました。

  今回のメンテナンスにより根本的な解決を目指しておりましたが、メンテナ
  ンス以降に不具合が発生し、お客様に多大なご迷惑をおかけしましたことを
  深くお詫び申し上げます。


1:本日以前の対応状況について
  これまで問題点として、ストレージへアクセス時に生成されるスレッド数が
  上限に達し、新たなリクエストを受けられずディスクの読み込み/書き込み
  操作に対し遅延や負荷増大、アクセスができないという症状が確認されてお
  りました。

  しかしながらこれは想定よりも大幅に少ないアクセス量において発生してい
  る事からストレージのファームウェア自体に問題があるものと判断し、メー
  カーと共に原因究明を進めて参りました。
  この結果、ストレージの競合処理を行うロックの上限が小さすぎることが判
  明し、メーカーより上限を大幅に緩和した新たなファームウェアの提供を受
  け、本日のメンテナンスを計画するに至りました。


2. 今回のメンテナンスの内容
  ロックの上限を大幅に緩和し、競合処理の負荷及びスレッド数の低減を図る
  ため、新たにリリースされたファームウェアへのアップデートを行いました。
  しかしながら新たなファームウェア適用後に確認された状況は、従前のファー
  ムウェアに比べてスレッドの増加が激しく、頻繁に上限に到達する現象が発
  生いたしました。


3. 発生している障害
  上記の通り、スレッド数が上限に達し、ストレージの負荷増大及びアクセス
  に支障をきたしております。


4. 今後の対処について
  障害復旧策として、メーカー側と共に各種パラメーター調整を行い、スレッ
  ドの増加を抑えるべく対応を進めておりましたが、先程ファームウェアの
  ロールバックを実施いたしました。
  現在は各サーバの調整を行い、復旧を目指しております。
  

5.将来的な対処について
  先日ご報告しましたとおり、上記の新たなファームウェアに更新した、新た
  なストレージを増設いたしました。まず新規作成されたアカウントにおいて
  提供を開始しております。これにより、負荷の分散、および障害点の分散を
  目指しております。
  (新たなストレージでは現在問題は発生しておりません。)
  なお、メーカー側でブラックボックス化されていることにより、迅速な対処
  や根本原因の追及が難しいという問題や、大型ストレージによる障害発生時
  の影響範囲の拡大など、構造的な問題が障害の長期化の根本的原因であると
  考えております。
  その為、集中型ストレージの構造的な問題を回避すべく、根本的に設計を見
  直した形での提供準備を進めており、間もなくご案内が出来る見込みです。


6. その他のご案内
・ストレージの大幅な負荷について
  本件対処のため、昨年末より1月末頃まで、I/Oの制限を行ってまいりました。
  現在は各種パラメータ調整において負荷の軽減の目処が立ったことから、
  制限を緩和いたしました。

・ホストサーバのダウンについて
  カーネル解析を進めた結果、ストレージの負荷増大時に、仮想化基盤(KVM)
  においてメモリリークが発生し、正常にメモリを解放できず、ホストサーバ
  がpanicするという問題が発生しております。
  現在、ストレージの負荷が以前よりは減っていることにより、当該バグが回
  避されていることに加え、ホストサーバの修正も順次行っております。
  結果として、現在ではホストサーバのダウンは大幅に軽減できております。


【2012年3月19日13時28分 追記】
現在、アップデートしたファームウェアを元の状態に戻す作業を実施し、
ストレージの修正を行っております。


【2012年3月19日12時59分 追記】
現在の発生しております、ストレージの影響についてご報告いたします。

■ ストレージの障害による影響

・ご利用中サーバに対する全般的なアクセス
・サーバ新規作成、削除操作
・コントロールパネル上での操作
  ・リモートスクリーン表示
  ・スナップショット、テンプレートの作成
  ・ディスクに関する操作

稼働状況につきましてはご利用中サーバのアクティビティ情報を
参考情報としてご確認いただく事ができます。

※ 3月13日以降に新しくアカウントを作成されたお客様については
  障害が発生しているストレージとは別のストレージを使用している
  ため、上記の不具合は発生しておりません。


【2012年3月19日12時10分 追記】
現在対応中のストレージ障害の経緯についてご報告いたします。

■障害経緯報告

 04:00 
 メンテナンス準備のため、ストレージ状態のセーブを実施
  
 04:15~04:40
 セーブ実施の過程で想定よりも負荷が高まり、断続的にストレージに
 アクセスできない状態が発生しておりました。
 
 06:00~06:08
 ストレージのファームウェアのアップデートを実施いたしました。
 このアップデートについて当初では4分程度のサービス断を見込んで
 おりましたが、想定よりアップデートに時間がかかり8分10秒程度の
 サービス断が発生いたしました。
 
 
 06:25~06:28
 ストレージのアクセスポートの設定を実施いたしました。想定では
 30秒程度で切り替わる予定でしたが、予定より時間がかかり2分41秒間
 のサービス断が発生いたしました。
 
 
 07:51~08:03
 メンテナンス終了後、一部ディスクに不具合を検出いたしました。
 調査を行ったところファームウェアアップデート時のソフトウェア障害が
 原因と判明、解消のためストレージシステムの再起動を行いました。
 
 システム再起動後、ストレージシステムが安定したたため、
 一度メンテナンスを終了とし、監視状態といたしました。
 
 09:55~
 再度、ストレージにて不具合が発生いたしました。現在、ストレージの修正を行って
 おります。


【2012年3月19日11時37分 追記】
11時30分ごろにストレージに関する不具合が再度発生しており
現在、ストレージの修正を行っております。


【2012年3月19日11時27分 追記】

現在、ストレージの修正を行っております。
お客様には大変ご迷惑をおかけいたしましたことを深くお詫び申し上げます。




                                                                以上