-
新春の悲劇
Posted on 1月 5th, 2010 はおりん No comments皆様、昨年末に大掃除はされましたでしょうか。
僕はやりました。部屋の大掃除を。
段ボールを大量に捨て、古くなった基盤やオーディオなども捨て、ゲームキューブも捨てました。とうとう。Wiiあるし。しかし。
しかしですよ!!一カ所、忘れていたんです。掃除をするのを。
忘れていたというか、油断していたというか・・・悲劇は元旦から発生した
その悲劇は、まず元旦から起こった。
元旦からバイト(本業ではない)があった僕は、早朝に家を出て仕事場へ向かった。
仕事の内容は電話番なので、基本的にヒマである。
ヒマなので自宅のPCにリモート接続していろいろやろうと思った。
思ったので、まず自宅PCの電源を入れなければならない。うちのメインPCはWakeOnLANで電源投入が出来るようになっており、fei-yen.jpの中の、とあるURLにアクセスして電源を入れることが出来る。
ところがだ。
この、「とあるURL」に接続できない。
というより、サーバにつながらない。むしろpingに応答がない。これは・・・サーバーダウン!!
新年からサーバーダウンかよーーーー。しかもpingに応答が無いということは、ルーターが落ちている、=VMwareESXiがフリーズしたか、回線が切断された可能性が非常に高い。
仮想ハイパーバイザが動いていてルータが落ちるということは滅多に無い。実は我が家では光ファイバー1本に、2つのセッションを張ってあり、家庭内LANとサーバー回線で分けられている。
が、サーバーそのものも家庭内LANに接続されているため、回線切断だった場合でも、家庭内LAN側のIPからアクセスが可能である。
そのため、2つとも回線が落ちていない限り、回線の異常か、サーバーの異常かを、ある程度、外出先から切り分けることが可能である。
今回、どちらのIPからもサーバーにアクセスできなかったため、サーバー異常と判断し、親にリセットしてもらうことにした。リセットボタンは、わからないだろうなぁ・・・
親が家にいるはずなので、サーバーをリセットしてもらおうと思ったのだが・・・リセットボタンはきっとわからないだろうなぁ、ということで、コンセントを抜いてもらうことにした。
そこで親に電話して作業を行ってもらったのだが・・・「なんか、冷たい。動いてないよ?」
えええええ?完全にシャットダウンされてるー??
しかも冷たい、って・・・落ちてからどんだけ時間経ってるんだよぉー
一応、臭いなども確認したが、焦げ臭いなどは無いとのこと。
電源ユニットの異常・・・でも無さそうな・・・とりあえず、電源を抜き差ししてもらって無事に正常起動したので、この件は迷宮入り。
これで、再発するようなら、どこかが故障していることになるのだが・・・
やだなぁ、買いたいものいっぱいあるのに・・・悲劇は再び舞い降りた
ところがだ。次の日、1月2日の朝。私は再び、サーバーの電源が落ちていることに気付いた。フリーズではない。完全に電源が切れているのだ。
これは、偶然とは思えない。しかし、何が原因かもわからない。結局、その日1日費やして、サーバーの稼働確認を行う手法を確立し、サーバーが落ちたら10分後にメールが来るようにした。
ちなみに、とった方法は、外部にメールサーバがあってPostgreSQLが動いているのだが、コイツはレンタルサーバーなので滅多に落ちないので、監視対象のサーバーから1分ごとにuptimeを書きこむ。監視側(メールサーバ)は1分ごとにデータベースから最新の書き込みを読み取り、10分間書き込みが無かったら携帯にメールするようにした。そして、運命の1月3日・・・
・・・・・落ちてる・・・orz
サーバーダウンは03:39。ちなみに前日は01:23頃であることがわかっている。
この日は出掛けるので、とりあえず再起動して放置。
ここまで来れば、もう、もちろん1月4日も落ちてるわけで。1月4日は01:52。さて、何が原因か
1月4日に、ESXiのバージョンが原因かとか、いろいろ調べてみたものの、結局わからず。
わからずわからずで、延々調べていたら・・・・・落ちた。時間は23:48。落ちた!今、そこで!落ちた!!
これはチャンスである。今までは落ちてから数時間経過していたため、原因が調査できなかったが、今ならば何かわかるかもしれない!
私はサーバーの外板を外し、中を見た!
・・・特に異常はない・・・
においも特に感じない。CPUは?CPUの温度はどうだ?!
・・・特に異常は・・・あっつ!!!
ヒートシンクがすごい高温に!!!掃除だ!掃除機だ!!
というわけで。
掃除機を取り出しまして、CPU周りをお掃除です。
そうです。ヒートシンクにホコリが溜まり、目詰まりを起こして、冷却できなくなったんです。ファンの風が通らなくなったんですね。
で、CPUが高温になり、ShutdownTempに達して、電源が落ちる。なんと!至極明快な解答ではないか!!
・・・・・・・・・・・忘れてたorz
一年に一回か、半年に一回、サーバーのホコリを取るのを忘れてました。
自宅サーバーをお持ちの方は気を付けましょう。(僕だけ?w
ハードウェア Core i7, 失敗4 Responses to “新春の悲劇”
-
お勧めは定期的にパワーアップすることですね!(笑)
一年~半年ごとぐらいにパーツ交換して、そのタイミングで掃除すれば万時解決ッ!ちょうどLynnfieldやらPine Trailやらが発売されていますし、そろそろ2TのHDDもSSDも値下がってきたんじゃないでしょうか?(笑)
-
そうなんですよ!
今、サーバが2台並んでて、1台は「せぴ」が買ってくれた仮想化サーバ。
もう1台はあまりモノのパーツをかき集めて作ったNAS。。。
この、NASが、ショボくてショボくて。ケースも半開きのまま運用してて危ないし、メモリは512しか積んでないしで、
コイツをリプレースしたいねー、とは話してるんですよねー。1.5TのHDDが1.5万円切りましたし。
でも、現状でHDDが6台+コールドスリープ1台=計7台あるので、新しいHDD買ってきてもデータの移動がめんど(ryちなみに、NASのOSは「FreeNAS」なんですが、イマイチ安定性と速度に欠けるので、なんか良いOSは無いかなぁ、と思う今日この頃であります。
-
エクスプレスに強引に2t6台積みで…
自宅も2008サバで1.5t4台体制
テックネット買っちゃったwwww
-
ちょ、先輩www
Expressは高いしやかましーんですよー
つーか僕もTechNet欲しいwww
コメントを書く
-