2020年2月11日のmineo障害原因
(2020年2月26日(水)追記)
移動体通信事業者のネットワークに接続する当社装置(PGW※)において、異常が発生し、お客さまとの接続が一部切断されました。
これに伴い、再接続要求が大量に発生し、お客さま情報を管理する設備の処理が輻輳したことが原因と判明いたしました。
現在、再発防止対策について検討を進めており、後日改めてお知らせいたします。 ※ PGW:LTE接続において、お客さまとの接続を行う通信機器
https://support.mineo.jp/ac/595/
なんかの理由で瞬電が発生してブレーカーが落ちた。
ブレーカーを戻したけど、一斉に電源オンになって突入電流でまたブレーカーが落ちた……って感じ?
※輻輳のアラートがなかったのかしらん?
15 件のコメント
コメントするには、ログインまたはメンバー登録(無料)が必要です。
判りませんでしたが報告を早くして欲しいのと。今後、この
ようになった時を明確にして欲しかった。
ドコモで障害発生すると、ドコモショップにクレームが殺到するように、リアル店舗でもクレーム来ることがあるから気をつけて!
画像はIIJのホームページの技術情報から借りてきたんだけれど、キャリアが3つあるんだから、当然それに接続するPGWだって3つあることになります。どれか1つで障害が起きたとして、それがどうして全体に広がって3キャリアとも接続できなくなるのか、説明ではよくわからないですね。
3キャリア同時に使えなくなるんなら、リスク回避のために最低1つはほかのMVNOにしようかとユーザー側は考えるわけで、実際にそうしようと思われている方はたくさんいると思います。
mineoのユーザー数が減少しないためにも、後でもいいから、もう少し詳しい説明をスタッフブログでお願いしたいですね。
よくわかりません。
>>認証設備は3キャリア分一体となったものだから全体に障害が及んだということなのかな?
Kanon好き先輩がgh様の掲示板でコメントされています(ただし、あくまでも推測のようですが)。
https://king.mineo.jp/my/35d65a68ac4dece3/reports/66482/comments/2038936
私はPGWって何やねん?!と思って、最初IIJのてくろぐで探してみましたが、先のokitaomote先輩 掲載の絵を見つけられなかったので、結局ケータイWatchから図を引用してコメントしました。
...うーん、難しすぎるッ!!
> キャリアが3つあるんだから、当然それに接続するPGWだって3つ
> あることになります。
接続先が3キャリア分あるから、と言って「設備が別々に3キャリア分あるとは限らない」と思いますが?。
どなたかが過去にケイ・オプティコム殿で導入した ASR5000シリーズのケーススタディを紹介されていましたが、ASR5000/5500のラインカードを入れるような筐体は、すでに一部製品で EOL(End On Life)のご案内が Ciscoから出ています。
※今の所シャーシの保守期限は 2021年辺り、と読めます。(ASR5000の場合)
但し ASR5500系統の場合、シャーシの EOLは発表されていませんが。
●End-of-Life and End-of-Sale Notices-WirelessCisco ASR 5000 Series
https://www.cisco.com/c/en/us/products/wireless/asr-5000-series/eos-eol-notice-listing.html
現行製品はほかスレッドでも書きましたが Cisco UCSシリーズサーバーを利用した ASR5700になっているようで、これに専用ラインカードを装着しないのであれば、サーバー側の処理インターフェースって InfiniBandか 40GbEになってくるんで。
それと、システム的に「どれか1台落ちても処理を肩代わりできるように」とクラスタを組んでいるのであれば、今回のような突発的再接続要求で処理不能(容量超過)になるのはなんとなく理解できます。
まあ、それって「そもそもの可用性設計(n+1なり n+2)がきちんとできていない」ってことも絡むようには思いますが.....。
※高可用性システム設計って結構面倒なんですよねえ。お金掛かるし
普段は使わないシステムにも保守料金などは発生しますから。
→なのでなるべく可用性は過剰にならないように設計
→それで突発的事態に耐えられないというのはよく聞きます(以下略)。
突入電流で電化製品が誤動作って感じでしょうか。
対策は、ホウキで掃除を行いますとか。w
※まだ毒舌が書き足らないけどこの辺でやめとく。w
次回はホコリで基板がショートしたって
書きますよ
mineoさん再発防止 よろしくたのんます(^o^)/
そのツッコミ待っていた。w
ホウキの次は、雑巾で乾拭き。(バケツを倒して漏電…)
見つけられませんでした
スレ主さんが本文で貼ってある
これです
https://support.mineo.jp/ac/595/
前半は2週間前と同じですが
下の方に書かれています。
,😉 🤗
AのユーザーもDもSも同じユーザー情報として同じ場所にまとめて保管・管理・認証等の処理をしているという事。
だから1個がバグって再接続を繰り返して、ユーザー情報に負荷かけたら、A・D・Sの3つとも処理が進まなくなって通信できなくなったという訳ですよね。
情報ありがとうございますm(_ _;)m