UPSによるスケジュールシャットダウンがされなかったお話

結果的には私のマニュアル確認ミスではあるのですが、備忘録的に残しておきます。

サーバーは基本的には常時起動しているとは思いますが、場合によっては夜間停止させておくという要件もあります。

例)深夜0時にサーバーを自動的にシャットダウンし、翌朝7時にサーバーを自動的に起動させたい。

シャットダウンだけであればWindowsのタスクスケジューラで行うことができますが、起動は行うことが出来ません。(このあたりの詳細はここでは割愛します)
※メーカーによって実現可能なハードもあります。

そんな場合、UPSによるスケジュールシャットダウンを行います。UPSと連携すればシャットダウンから起動まで自動で行うことが出来ます。
今回はUPS(APC社製)とサーバーの接続はLAN接続という環境でした。UPSにはNetwork Management Card(NMC)が接続されておりLANに繋がっています。
サーバー導入後何か月かの間は意図したとおりに自動的にシャットダウンされ、自動的に起動されていました。

しかしながら、シャットダウンされていない日がたまにあるという状況が発生しました。
シャットダウンされる日もあります。日付や曜日との関連はなさそうな感じです。
UPSのログを確認すると、「ネットワークインターフェイスが再起動しました」というログが定期的に発生している時間帯があります。
このネットワークインターフェイスの再起動がちょうどシャットダウンのスケジュールを設定している時間に発生していることがあり、その日はシャットダウンが行われていないようです。
NMCが再起動している最中はサーバーへのシャットダウン信号は送られないと思われますので当然と言えば当然ですね。
ハードの障害も疑われるのですが、どうもしっくりこない感じです。

Network Management Cardのユーザーズガイドを見ているとこんな記述が…

ウォッチドッグ機能
概要
Network Management Card は、システム全体をカバーする内部ウォッチドッグ機構を利用し、内部障害の検出および予期せぬ信号の受信からの回復を行います。Network Management Cardが内部障害から回復するために再起動した場合、これは [ システム:ウォームスタート ] イベントとしてイベントログに入力されます。

ネットワークインターフェイスのウォッチドッグ機構
Network Management Card はネットワークへのアクセスを確保できるよう内部ウォッチドッグ機構を備えています。例えば、Network Management Card がネットワークトラフィックを受信しない状態が 9.5 分間続いた場合(SNMP のような直接送信、またはアドレス解決プロトコル[ARP] リクエスト)のような一斉送信のどちらの場合でも)、ネットワークインターフェイスに問題があると判断されカードが再起動されます。

ネットワークタイマのリセット
ネットワークトラフィックが 9.5 分間途絶えという理由だけで Network Management Card が再起動されないよう、Network Management Card は 4.5 分間隔でデフォルトゲートウェイへの通信を試みます。ゲートウェイが存在している限り、Network Management Card に応答があり、9.5 分間のタイマ枠がリセットされます。ゲートウェイがない場合やアプリケーションがゲートウェイを必要としない場合は、同一サブネット上に存在しネットワークで動作して
いるコンピュータの IP アドレスを指定してください。このコンピュータのネットワークトラ
フィックにより 9.5 分枠のタイマが定期的にリセットされ、Network Management Card が頻繁に再起動しないようになります。

これだ!(いや、ちゃんと読んどけよ)

実は今回の環境はゲートウェイが存在しない閉じたネットワークになっています。そのため、NMCのゲートウェイを指定していませんでした。NMCのゲートウェイの設定にゲートウェイの代わりに常に起動している機器のIPアドレスを設定して解決。(プリンタとか、サーバとか)

うーん。マニュアルはきちんと読もう。。。

コメント