掲示板

2020年2月11日のmineo障害原因

(2020年2月26日(水)追記)
移動体通信事業者のネットワークに接続する当社装置(PGW※)において、異常が発生し、お客さまとの接続が一部切断されました。
これに伴い、再接続要求が大量に発生し、お客さま情報を管理する設備の処理が輻輳したことが原因と判明いたしました。
現在、再発防止対策について検討を進めており、後日改めてお知らせいたします。 ※ PGW:LTE接続において、お客さまとの接続を行う通信機器
https://support.mineo.jp/ac/595/

なんかの理由で瞬電が発生してブレーカーが落ちた。

ブレーカーを戻したけど、一斉に電源オンになって突入電流でまたブレーカーが落ちた……って感じ?
※輻輳のアラートがなかったのかしらん?


15 件のコメント
1 - 15 / 15
2月11日の通信障害発生の報告、読みました。難しい事で良く
判りませんでしたが報告を早くして欲しいのと。今後、この
ようになった時を明確にして欲しかった。
mineoもあんちゃんは今ユーザーじゃない(復帰したいけど家庭問題存在)だけど、障害だけは起きてほしくないね!

ドコモで障害発生すると、ドコモショップにクレームが殺到するように、リアル店舗でもクレーム来ることがあるから気をつけて!

2020-02-26_20.59.24_eng-blog.iij.ad.jp_6f94019db2c3.jpg

画像はIIJのホームページの技術情報から借りてきたんだけれど、キャリアが3つあるんだから、当然それに接続するPGWだって3つあることになります。どれか1つで障害が起きたとして、それがどうして全体に広がって3キャリアとも接続できなくなるのか、説明ではよくわからないですね。

3キャリア同時に使えなくなるんなら、リスク回避のために最低1つはほかのMVNOにしようかとユーザー側は考えるわけで、実際にそうしようと思われている方はたくさんいると思います。

mineoのユーザー数が減少しないためにも、後でもいいから、もう少し詳しい説明をスタッフブログでお願いしたいですね。
認証設備は3キャリア分一体となったものだから全体に障害が及んだということなのかな?
よくわかりません。
>okitaomote先輩

>>認証設備は3キャリア分一体となったものだから全体に障害が及んだということなのかな?

Kanon好き先輩がgh様の掲示板でコメントされています(ただし、あくまでも推測のようですが)。
https://king.mineo.jp/my/35d65a68ac4dece3/reports/66482/comments/2038936

私はPGWって何やねん?!と思って、最初IIJのてくろぐで探してみましたが、先のokitaomote先輩 掲載の絵を見つけられなかったので、結局ケータイWatchから図を引用してコメントしました。

...うーん、難しすぎるッ!!
okitaomoteさん>
> キャリアが3つあるんだから、当然それに接続するPGWだって3つ
> あることになります。

接続先が3キャリア分あるから、と言って「設備が別々に3キャリア分あるとは限らない」と思いますが?。

どなたかが過去にケイ・オプティコム殿で導入した ASR5000シリーズのケーススタディを紹介されていましたが、ASR5000/5500のラインカードを入れるような筐体は、すでに一部製品で EOL(End On Life)のご案内が Ciscoから出ています。

※今の所シャーシの保守期限は 2021年辺り、と読めます。(ASR5000の場合)
 但し ASR5500系統の場合、シャーシの EOLは発表されていませんが。
 
●End-of-Life and End-of-Sale Notices-WirelessCisco ASR 5000 Series
https://www.cisco.com/c/en/us/products/wireless/asr-5000-series/eos-eol-notice-listing.html

現行製品はほかスレッドでも書きましたが Cisco UCSシリーズサーバーを利用した ASR5700になっているようで、これに専用ラインカードを装着しないのであれば、サーバー側の処理インターフェースって InfiniBandか 40GbEになってくるんで。

それと、システム的に「どれか1台落ちても処理を肩代わりできるように」とクラスタを組んでいるのであれば、今回のような突発的再接続要求で処理不能(容量超過)になるのはなんとなく理解できます。

まあ、それって「そもそもの可用性設計(n+1なり n+2)がきちんとできていない」ってことも絡むようには思いますが.....。
※高可用性システム設計って結構面倒なんですよねえ。お金掛かるし
 普段は使わないシステムにも保守料金などは発生しますから。
→なのでなるべく可用性は過剰にならないように設計
→それで突発的事態に耐えられないというのはよく聞きます(以下略)。
>>ブレーカーを戻したけど、一斉に電源オンになって突入電流でまたブレーカーが落ちた……って感じ?

突入電流で電化製品が誤動作って感じでしょうか。
いっそ素人さん向けに、「掃除担当者がコンセントを借用して通信機器全滅」とでも説明しておけばよかったのでは?

対策は、ホウキで掃除を行いますとか。w

※まだ毒舌が書き足らないけどこの辺でやめとく。w
ホウキで掃除したら
次回はホコリで基板がショートしたって
書きますよ
原因がわかってよかったですね。
mineoさん再発防止 よろしくたのんます(^o^)/
クリームメロンソーダさん

そのツッコミ待っていた。w
ホウキの次は、雑巾で乾拭き。(バケツを倒して漏電…)
何処にこの記事掲載してるのかな?
見つけられませんでした
>> シャレードデトマソさん

スレ主さんが本文で貼ってある
これです

https://support.mineo.jp/ac/595/

前半は2週間前と同じですが
下の方に書かれています。
,😉 🤗
MNOとの接続先はA・D・Sの3つありますが、ユーザー管理は3つ共通みたいですね。
AのユーザーもDもSも同じユーザー情報として同じ場所にまとめて保管・管理・認証等の処理をしているという事。

だから1個がバグって再接続を繰り返して、ユーザー情報に負荷かけたら、A・D・Sの3つとも処理が進まなくなって通信できなくなったという訳ですよね。
neo-mattsanさん

情報ありがとうございますm(_ _;)m
コメントするには、ログインまたはメンバー登録(無料)が必要です。