[障害対応完了済み] AWS東京で障害発生中! 各種アプリが落ちてる模様
毎度おなじみのAWS東京リージョンで障害が発生しているようです。
お使いのアプリが動かない場合は、何もしないでそのまま待つて公式サイトの案内を確認することをオススメします。
※それにしてもマイネ王はAWS東京で動いてのに動き続けてるなあ。シナプスさんは、どんだけ凄腕なんだ。
直りました。
冷却システムの電源喪失って前にもあったよね。
---
12:54 PM PST (5:54AM JST)日本時間 02/19 11:01 PM から、AP-NORTHEAST-1 リージョンのうちの1つのアベイラビリティーゾーンの一部の区画で室温の上昇を確認いたしました。日本時間 02/19 11:03 PM から、室温が上昇した結果として、一部の EC2インスタンスが影響を受け、一部のEBSボリュームではパフォーマンスが低下しました。根本的な原因は、影響を受けたアベイラビリティーゾーンのセクション内の冷却システムへの電力の喪失であり、すでに回復済みです。日本時間 02/20 03:30 AM までに、電力は冷却システム内のほとんどのユニットで復旧し、室温は通常のレベルに戻りました。日本時間 02/20 04:00 AM までに、EC2 インスタンスと EBS ボリュームの回復が始まり、日本時間 02/20 05:30 AM 時点で、影響を受けた EC2 インスタンスと EBS ボリュームの大部分は通常通り動作しております。一部のインスタンスとボリュームは、イベントによって影響を受けたハードウェア上でホストされていました。引き続き影響を受けたすべてのインスタンスとボリュームの復旧に取り組み、Personal Health Dashboard を通じて、現在も影響を受けているお客様に対し通知を行います。即時の復旧が必要な場合は、影響を受けているインスタンスまたはボリュームを置き換えていただくことをお勧めします。|
https://status.aws.amazon.com/
---引用おわり
公式にお知らせが出たので障害発生が確定です。
https://status.aws.amazon.com/
熱でやられたようです。
---
現在、東京リージョン AP-NORTHEAST-1 における一つのアベイラビリティゾーン(apne1-az1)の一部で、周囲の温度が上昇している状況を確認いたしました。影響を受けているアベイラビリティーゾーンの一部 EC2 インスタンスでは、接続性の問題または温度上昇の影響に伴い、電源が切れている問題が発生しております
https://status.aws.amazon.com/
--- 引用おわり
AWSってそもそも Single-AZで設計した場合は「可用性・耐障害性は推して測るべし」と Amazonのソリューションアーキテクトに必ず言われるはずなんですけどねえ。
むしろ Multi-AZ設計しないってことは「その程度の運用でサービスすればよいか」というお話だと思っています。
※ある意味設計が稚拙よね、そういうアプリは。なんて思います。(困りもの)
→今 Multi-AZでの設計を色々とやってるので。
結構困ってます、ハイ(v_v)
>> 永芳 さん
> 障害が起きたAZを切り離したくても切り離せないといった場合これって結局「そこがSPoF(単一障害点)になりかねない」ので、普通に Multi-AZ設計を考えるならバックヤード(App, DBサーバーなど含めて)も SPoF回避設計を行うように Best Practice出てるはずです。
サービス側だけ SPoF回避ってのは AZ障害時に何も出来なくなる可能性があるので、普通は Amazon S3など基本はリージョンに依存しなくても良いサービスでも無ければ、ガッツリ Multi-AZ対応設計にしてるものだと思っていますがいかがなものなんでしょうか?。
そこまでコスト掛けなくても良いってお話なんですかねえ?。よく分からんです。
※そう考えると昨今のインフラ検討・設計って「SPoFあっても良い」
と考えてるエンジニアが多いんでしょうねえ。
個人的には「メンテで困るなら初めから完全切替(縮退運用)出来る」
様に設計提案しますけど。(DB完全同期が必要な場合を除く)
→どうせ困るのはユーザー側(サービス提供者含む)なので.....。
AWSはそこまで含めた「責任共有モデル」だったはず。:(
Amazonもしっかりせいや!これだから、さくらインターネットに怒られるねん!
で、今ヘッドラインニュースで気象庁の気象サイトがクラウド障害で落ちていたとか出ていて。それ本当にニュースにすることですか?
今の日本の心性的には、クラウドって理解出来ていないんだろうなあと。「(仕事を請け負うから)合理的にしましょう+同情するなら金をくれ」がクラウドの本質です。金も渡さないのに品質求めるってのが、20世紀的工業社会の工場生産の発想から抜け出せていないんだろうなあと。
いっそ非合理でも脱クラウドした方が心性的にはあっているのかも。(そして世界から置いてけぼりにされる。もう30年続いていますけど)
どこかのデーターセンターで働くみなさんありがとうございます!
>> eq.18 さん
> 金も渡さないのに品質求めるってのが、20世紀的工業社会の工場生産の発想から> 抜け出せていないんだろうなあと。
まさにそれなんですけどねえ。
何故か根性論などで「誰かが努力すれば云々」ですし、それ以前に「安くて良いものは有る!」と簡単に言ってしまう消費者思考が個人的には謎ですね。
安いからにはなにか理由がある。それを理解しないから「誰かに負担を押し付ける」といういびつな構造なんだと思います。
皆さんだって「自分が努力してより多くの生産性を提供した」ならその分ギャラ欲しいじゃないですか?。でも前述の考え方は「努力をギャラに換算しないよ」という単純な理論なんです。非常に失礼だと思います。
ギャラが欲しければ他人の何倍も努力して能率・生産性追求→その結果ギャラを要求する仕組みに社会全体を変えないとならないですし、他人に気安く値切らせようとするのは逆に「自分自身の価値も値切られてる」という前提を頭の片隅においておく必要があると感じます。
※だから一部の企業は to Customer Businessを
止めたんだと思います。結局金にならないですもの(苦笑)