「mineo通信障害(2020/2/11)のお詫びならびに原因と対策について」発表
※音声はAプランだけっぽいので…Mineo全般のタグ用意してくれぇ
mineo 通信障害(2020/2/11)のお詫びならびに原因と対策について
https://optage.co.jp/press/2020/press52.html
あんまり新味ないんですが、結局のところ輻輳で終了のようです。以下全部引用
※「偶発的な異常が2件同時に発生」って確率論的にどうよ? あと一部ってどのぐらい? 再接続輻輳発生するぐらい多いんだから大部分じゃないの?
5.障害原因と復旧方法
移動体通信事業者のネットワークに接続する当社装置(以下PGW)において、偶発的な異常が2件同時に発生し、お客さまとの接続が一部切断されました。
それによりお客さま情報を管理するサーバ(以下当該サーバ)への再接続要求が大量に発生し、処理が輻輳したことにより今回の事象に至りました。
復旧にあたってはPGWから当該サーバへの情報のルートを切り離し、一時的に当該サーバを経由しないルートへ変更することで再接続要求の処理輻輳を回避し、当該サーバの負荷に問題がないことを確認しながら、順次通常運用状態へと回復させました。
15 件のコメント
コメントするには、ログインまたはメンバー登録(無料)が必要です。
「mineo通信障害(2020/2/11)のお詫びならびに原因と対策について」
を読みました。私は素人なので読んでも良く、判りません。
同じようなトラブルを起こしてほしくないです。本当は2度と言う、
ことばを入れたいのでが、多分、無理でしょう😡❗
原因を取り除くというより、重症化予防策ということですかね。
もちろん今回の対策の副作用も覚悟しておかないといけませんが。
今後偶発的な異常が起こった場合
再接続要求の制限が掛かるので
一時的につながりにくい、つながらない現象が
起きるけど、今回のように完全にダメになることは無い
と言う事でしょうか(^^;)。
2件同時というのは、DプランとSプランを処理しているところそれぞれで発生したという意味じゃないかと想像しました。相手先キャリアがそれぞれ違うわけですから、PGWは1つの筐体だったとしても、中では当然3つの異なるシステムが動いているはずですので。
わかりやすくしたつもりでも、「PGW」や「輻輳」なんて言葉を使っちゃ駄目ですね。
PGW( Packet Data Network Gateway:POI(相互接続点)の mineo 側にある中継装置で mineo ネットワークへの入り口にあたる)からの新規接続要求に制限をかけるという事は、スマホなどの端末で電源を入れたり、機内モードのオン・オフをした時に接続できない場合が発生するかも知れないという風に考えた方がいいのかな…。
最終14回線ダウンですよ…
下っ端なので職場内を行ったり来たり
スニーカーネットで肩叩き&臨時休憩連絡させていただきました。
>>スニーカーネットで
懐かしい単語!!!!!!!!!!!
・【ケータイWatch】mineo、2月11日に発生した通信障害の原因を公表
https://k-tai.watch.impress.co.jp/docs/news/1240242.html
原因は前回の発表にてPGWの異常発生をきっかけに、mineoユーザーの
モバイル回線の接続が切れ、一斉に再接続しようとする事で顧客情報管理
サーバにアクセスが殺到して処理出来なくなり、通信不能なユーザーが
多数発生するという事が判明していました。
今回はその対処法として、顧客情報管理サーバへの受付数に制限を掛ける
事によりアクセス殺到による処理不能になる事態を回避するという事に
なりますね。
これにより、2月11に発生した通信障害と全く同じ原因での障害はまず
起こらない状態になったといえるので、ひとまず安心です。(^^
ただ、発端となったPGWの異常に関しては偶発的なものとなっており、
実質的には原因不明という印象ですね。(^^;
なので、長時間障害が発生するリスクは大きく下がったと言えますが、
一方でPGWの異常が起因とする短時間の障害が発生するリスクはそのまま
残ってそうな気がします。
誰に向けてのって言ったら、大規模傷害に対して30日以内に報告義務のある総務省向けでしょう。
次回からは今回の原因では、不通にならないということで。(笑)
輻輳、大量の再接続ってよくあるネットワークのトラブル事例ですが、mineoの利用しているPGW設備に対策されていないというのがちょっと驚きです。(^^;
※分野は違えどそういうミッションクリティカルなシステムの策定から
設計・構築・デリバリが私の本職ですので。
→20ms遅延でも影響出るようなシステムの設計を考えると、仕事とは言え
「これ、一人で設計するには無理がないかい?」と毎度考えます。
そうそう出来る方いらっしゃいませんからね(笑)。
今後の対策としては同時発行セッション数の制限を設ける、というようですから、一時的に「障害発生時、先行して接続できる回線とそうではない回線」の契約がどのようなロジックで決定されるのかも熟慮しないと同じことが起きそうな予感はあります。
※しきい値設定してもリトライが掛かり続けたらNGなので。
リトライ要求を破棄してしまえば良いんですけど、そうなるとすぐに
接続できませんし、かと言って繋がらないままにも出来ないでしょう
から、その場合は「一度電源切って入れ直してください」が
有効的に働く気はします(苦笑)。
一応公衆回線接続に関しては余程理由がない限り「接続の優先順位は付けない」のが前提のようですし、繋がらない障害となったら「のんびり待つ」か、もしくは「とにかく端末再起動」でつながるかもしれませんけどね。
30日ギリギリ。内容は、詳しい人には物足りない、素人には理解出来ない、ですね。だから発表など興味はありませんでした。ちゃんと対策してくれればOKですし、自分もちゃんと対策するだけです。
https://king.mineo.jp/magazines/special/1280