AWS障害原因は「サーバの過熱」 | 掲示板

ふみえもん@還暦ですが…さん

Gマスター

玄人から見ても凡ミスだと思います…

2019.08.25 12:24

パイクさん

エンペラー

再発しますよ。

2019.08.25 12:28

（なお）さん

ベテラン

複数の冗長化冷却システムに障害って、うーん。。。て感じですね。

2019.08.25 12:54

退会済みメンバーさん

ビギナー

大規模クラウドシステムはどうなているか素人なので判断できません。
AWSの構築がどうかわからないので意見の言いようがありません。

2019.08.25 13:01

えのくさん

Gマスター

サーバーはクラウドにするんだよ。

ってボケてみる(^_^;)

2019.08.25 15:01

（なお）さん

ベテラン

＞影響を受けたアベイラビリティゾーン中の一部の冗長化された空調設備の
＞管理システム障害が原因です。

冗長化された空調設備が壊れたのか、
空調管理システムが壊れたから、冗長化された空調設備が正常に稼働
しなかったのか。。。

まぁ、いずれにせよ、週明けに文句言ってる人多そうだなぁ。。。
AWSを用いてサービス提供している事業者がSingle-AZで運用していた場合、
なんて説明するんだろ。。。

2019.08.25 15:56

ジェラトーニさん

レギュラー

>玄人から見ても凡ミスだと思います…

ふみえもんさんは玄人なのですね。
では、今回冗長化していた冷却システムが機能しかなった原因、
根本原因、対策を素人にわかりやすいように解説をお願いします。

玄人ならご存知ですよね？

2019.08.25 16:22

タケシ28さん

SGマスタ

このような事にならないように対策をしっかりお願いします。

2019.08.25 17:35

ばななめろんさん

SGマスタ

リンク先、単に AWS側の infoをそのまま翻訳してるだけのような.....？。

サーバールーム内の冷却もいろいろな方法があるので、単に「冗長系の冷却設備が」云々と書いても個人的には「そもそも冗長設計じゃなくて分散して冷凍機置いてないか？。冗長設計とは何を指してるのか説明できるの？」ですね。

お気づきかもしれませんが、通常サーバールーム内の冷却は
・エリア内(室内)
・ラック内
・その他→場合によっては機器に対してスポット冷却(高発熱機器)
と考えます。この内エリア内に関しては冗長設計ではなく「エリア全体の空調として分散した冷凍機を配置→数台が壊れても他冷凍機が能力を上げて対応」とします。(それでも間に合わない場合を考慮して、普通はエリア内送風機も用意しています)

ラック内空調も基本的には床吹上、または吹き下ろし(ラック上部から)の他に、昨今では「壁面より横軸流」での冷却も採用しているので、効率よく冷却できる方法はいくらでも設計できます。

※当然のごとく、横軸流の場合はホットアイル(発熱の貯まるところ)と
　コールドアイル(冷風の通るところ)をきちんと分離しないと、
　全然冷却できません。
　最近ではアイルキャッピングとして熱管理が当然に行われています。

冗長化するとなれば特定の高発熱機器に対してのスポット冷却でしょうが、そういう機器は「ラックに集約して配置しない」のが当たり前なので、推察するに「ラック搭載機器総合での発熱量設計を見誤っている」のがリカバリーに時間の掛かる結果となっているんじゃないかと思います。

まあ、発熱する機器は「きちんと排熱を考慮して配置する」のが当然ですので、あとは「どうやって正しく排熱させるか？(機器内外で)」だけです。なんとなくですが「サーバー内部の空冷ファンが壊れたままでも放置していた」のであれば、お粗末そのものとも考えられますが。

※そのために「Multi-AZなり Muti-Regionで分散しておけ！」も
　確かに真ではありますが。
　まあ、アマゾンウェブサービスでは口が裂けてもそう言えないのかも
　しれません。あくまでも「個人の推測」ですよ:)。

2019.08.25 18:25

クリームメロンソーダさん

SGマスタ

今年も暑かったから
換気扇が壊れたのかな？

2019.08.25 18:59

ふみえもん@還暦ですが…さん

Gマスター

僕が玄人とは言うておりませんが…
僕の揚げ足を取ってもしゃあないと思います。

少なくとも、クラウドサービスにおいて、これほどの（熱暴走の）停止など聞いたことがありませんし、根幹に関わる問題です。

また、玄人なコメントは、ばななめろんさんが書いていらっしゃいますので、ご参照ください。

2019.08.25 19:31

退会済みメンバーさん

ビギナー

明日でも検証してみます。

2019.08.25 20:10

えのくさん

Gマスター

そら、焼きサバ(^_^;)

2019.08.25 20:24

超熱島🥵@超低年金島さん

SGマスタ

えのくさん
＞サーバーはクラウドにするんだよ。
分かるのに少し時間が掛かりました。

＞そら、焼きサバ(^_^;)
あ～、そういう意味でしたか？

なる程～(⌒‐⌒)

2019.08.25 20:36

ふみえもん@還暦ですが…さん

Gマスター

入会して一週間で、僕が揚げ足取りが得意ってよくご存知ですね。

よく予習をされています。
素晴らしいです。

2019.08.25 22:22

あんちゃん@二階堂大和さん最高さん

SGマスタ

アイドリッシュセブンも大変だったみたいだし

2019.08.26 00:28

クリームメロンソーダさん

SGマスタ

誰かゲソ天の写真アップですよ。

2019.08.26 15:09

えのくさん

Gマスター

そら、イカの揚げた足やがな〜

（あってる？）

2019.08.26 18:06

ひで　さん

マスター

焼きサバとかゲソ天の流れ好き
(´▽｀ )♡

2019.08.27 14:05

ばななめろんさん

SGマスタ

ふみえもんさん＞
> 玄人から見ても凡ミスだと思います…

とまで書いた方が

> また、玄人なコメントは、ばななめろんさんが書いていらっしゃい
> ますので、ご参照ください。

というのは少々恥ずかしいと思います、ハイ。

※熱設計に関しては空調の効率的配置と類似してるところもあるので、
　その範疇であれば「ちょっと調べれば普通にわかること」です。
　→ご家庭でエアコン使う時に局所冷却するのと空間全体を冷却する
　　違いなども同等の系統。

調べずにあやふやなことを書くと突っ込まれる原因になりますので。

私自身もその手のファシリティ系統が専門なわけではありませんが、仕事の関係上「調べないと事が進まない」ので、自分で調べてさらに専門書を漁ってみたりした結果です。

それでも『常時 updateが必要』ですし、単純なものではない訳ですから「知らないなら知らないとか、モヤッとしたことは書かない」のが良いと思います。

※私自身、一瞬「はあ、ふみえもんさんってそういうの専門なんだ」と
　感じてしまいましたが.....。:(

2019.08.27 23:49

ふみえもん@還暦ですが…さん

Gマスター

僕が玄人だとは言うてません。

冷却装置が停止して、熱暴走の障害って…
こりゃ誰が見ても凡ミスやろ、と思ったので、書いたのですが、
書き方がマズかったですかね…

2019.08.27 23:57

ばななめろんさん

SGマスタ

ジェラトーニさん＞
> ふみえもんさんは玄人なのですね。
> では、今回冗長化していた冷却システムが機能しかなった原因、
> 根本原因、対策を素人にわかりやすいように解説をお願いします。
> 玄人ならご存知ですよね？

根本原因や対策は「一つではない」ので、公開情報だけでは説明できないと思うんですがどうでしょうか？。

※それともそんなに単純なことが原因だと思います？。

空間冷却に対する熱設計も狭所と広い空間では「気流の流れなりいろいろな側面を考慮して検討しないとならない」ので。こればかりは慣れとかそういうものでは処理できません。

※厳密に考えると最終的には流体力学辺りに行き着くらしいです。
　私自身そこまでは理解できないので、経験と勘に任せるしか
　ありませんが。

ただ一因を上げるとすれば、今回の件は既に書いたとおり「発熱量管理の試算誤り」があるのでは？、と思えるくらいです。

ラック内の機器については「高発熱機器がある状態でも適切な気流の流れと気流通過時に奪われる熱の管理」が出来れば、そこそこ冷却は出来るわけです。
でもクラウドサービスなどの場合は「可能な限り高集約かつ高性能」が求められますから、発熱量管理をどの状態で想定していたのか(TurboBoost掛かりっぱなしか、それとも定常状態か、またはピーク性能仮説か？)で異なります。

個人的にはその辺りの目算を初めから誤っていたので、いざというとき「機器を止めて他のラックへ移し替える事が出来ない(例：ラックの空きがない、配線引き直しが移設前後のラックで稼働中は困難、電力量の限界など)」事情があったから、障害が長引いたとしか言えないところだと思います。

2019.08.27 23:58

退会済みメンバーさん

ビギナー

担当者が団扇でバッチ処理できなかったんでしょ。

2019.08.28 00:00

ばななめろんさん

SGマスタ

> 僕が玄人だとは言うてません。

『> 玄人から見ても凡ミスだと思います…』という言葉は「事情を理解できる人間」が本来使うに適したものです。事情が判らず使うのはミスリードを誘うので、使うべきではないと考えます。

実際、データセンター内の空間といっても要は「建築なり空間設計に依存したものもある」ので、そんな簡単なことではない、もしくは「しがらみがあって、どうしても回避できない」場合もあります。

※昨今のデータセンターは賃借→小型エリアだったり、それこそ
　「コンテナ型データセンター(44フィートコンテナよりも一回り位
　大きなコンテナ内にデータセンター機能を詰め込んだもの)」も
　ありますので。

一般の方が意識していないところにデータセンターって普通に存在するもんです。
ただ見る人間が見れば「あ、これはデータセンターファシリティだ！」って一発で気が付きます。(私自身、初めての場所でもいくつかは見て気が付くところもあります)

2019.08.28 00:04

ふみえもん@還暦ですが…さん

Gマスター

反省します…

2019.08.28 00:20

退会済みメンバーさん

ビギナー

ゲソゲソしないでサバサバ行こうよ。クラウドやサーバーに本格的に詳しくて説明できる人なんてなかなかいませんから。
楽しくやりましょマイネ王

2019.08.28 00:20

パイクさん

エンペラー

https://www.itmedia.co.jp/news/articles/1908/28/news127.html
詳しくでました。
＞AWS障害、“マルチAZ”なら大丈夫だったのか？　インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」
2019年08月28日 18時59分公開

＞　今回の障害で、クラウドへの漠然とした不安から「オンプレミスへの回帰はどうか」という声もネット上にあった。しかし、ふたを開けてみれば5時間程度で大部分が復旧しており、オンプレミスで同様の障害があったときに同等の速度・労力で復旧できるかには疑問符が付く。

＞　AWSを利用する企業にとって、今回の障害は「どのようなサービス運用が適切なのか」を社内で議論する機会になりそうだ。

2019.08.28 20:15

パイクさん

エンペラー

先程、さらに修正ありました。

〉AWS障害、複数のアベイラビリティゾーン利用でも影響　AWSが説明を修正
ITmedia 2019-08-29 12:34

2019.08.29 12:41

（なお）さん

ベテラン

＞WAFやスティッキーセッションと組み合わせてご利用しているお客さまの一部で・・・

うーん気になるぅ。

WAF→WAFは生きていたけど、EC2インスタンスまでL7レベルでの監視をしていなかったので、5xxを返してましたゴメンナサイってオチ？
スティッキーセッション→Cookie等の情報に基づいて、対象EC2サーバへ振り向けたけど、EC2インスタンスがHTTP/HTTPSには応答しなかったので、5xxを返してましたゴメンナサイってオチ？

いずれも、ELBからL7レベルで監視していれば回避できたとかっていう話なのかなー？ELB触ったこと無いから、何処まで設定できるか知らんけど。

（独り言です。）