2017年10月14日深夜から発生した緊急メンテナンスについて

各位

いつも”柊サーバ”など、各種サービスをご利用いただき、誠にありがとうございます。
さて、掲題にあります「緊急メンテナンス」について説明させていただきます。
今回の緊急メンテナンスは、主にハードウェアの故障であることが判明しました。
順を追って説明させていただきます。
なお、対象となるサーバとサービスは次の通り。
 サーバ :柊02サーバ(プレアデスサーバ)
 サービス:柊02サーバにて展開しているサービス全て
      (第1U、Minecraft自営サーバ(ロビー、NMS、VCO、???、???) / 第2U、Minecraft無料レンタルサーバ)

2017/10/14
22:41 サーバ監視コンソールに、「同期データサーバとのラグが増大」というエラーメッセージが表示。
22:43 調査のため、”柊02サーバ(以降、該当サーバ)”にリモートアクセスを行うも通信が遮断される。
22:47 該当サーバにモニター等の外部装置を直接取り付け、検証を開始する。
22:50 該当サーバのネットワーク速度が、閾値以下となっているのを確認。同じネットワークに接続しているサーバの確認もする。
22:55 同じネットワークに接続しているサーバに問題は発生していないため、該当サーバのネットワーク機器の不具合と見込む。
22:59 該当サーバにて新たな不具合(度合い:緊急)を示すアラートが表示。オンライン状態の復旧を諦め、該当サーバの全サービスの停止を決定。
23:00 全サービスを停止。ホームページやTwitter、関係機関への通知を行う。
23:05 該当サーバのソフトウェアチェックを(サークルエンジニアが遠隔操作で)開始。
23:06 該当サーバのハードウェアチェックを開始。
23:40 原因が判明。
 ・ハードウェア:該当サーバ側ネットワークカード。ヒートシンクの剥がれによる熱暴走とチップの破損(1番目の原因)
 ・ハードウェア:メインメモリ。32GB(8GB×4枚)の内、2枚が動作不安定に。原因は不明だが、ラグの原因にもなっていた。(2番めの原因)
 ・ソフトウェア:メモリの影響で、サークル独自ソフトウェアが破損。
 ・ソフトウェア:Windows ServerOSの応答が不安定になっていた。(メモリが原因)
 ・ソフトウェア:Windows Updateがなんかエラー吐いてる(原因不明、関係があるかも不明)
23:45 該当サーバの主電源を停止(主電源停止は76日14時間32分ぶり)
23:50 ネットワークカードとメインメモリの予備を準備完了。

2017/10/15
00:10 予備部品との交換完了。主電源及びサーバの電源を入れる。
00:12 該当サーバの起動を確認。ハードウェアに異常なし。
00:15 ソフトウェアの修正を(サークルエンジニアが遠隔操作で)開始。
00:28 ソフトウェア修正を終了。各サービスを、負荷の低いものから順次復旧。
00:45 すべてのサービスを復旧。
01:00 該当サーバマシンの安定化を確認。以上をもって緊急メンテナンスを終了。

以上が今回の流れになります。
利用者にはご迷惑をおかけしたことをお詫び申し上げます。
今後も”柊サーバ”など、各種サービスをよろしくお願いいたします。

2017/10/15 01:20 管理人:柊真冬(あーくん)

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です