mineo通信障害(2020/2/11)のお詫びならびに原因と対策について
mineoの責任者をしております、福留康和です。
先般、2020年2月11日19時34分頃に発生したmineo通信障害により、約6時間もの間、Aプランで最大29万件、D・Sプランで最大50万件のお客さまがデータ通信不可となってしまいました。
また、Aプランにつきましては、最大27万件のお客さまにおいて音声通話サービスもご利用不可となってしまいました。
長時間に亘り、多くのお客さまに大変なご不便、それからご迷惑をおかけいたしましたことを、あらためて、深くお詫び申し上げます。
昨日、今回の障害原因と再発防止策についてプレスリリースするとともに、mineoユーザーサポートサイトにも掲載させていただきました。
mineo 通信障害(2020/2/11)のお詫びならびに原因と対策について
https://optage.co.jp/press/2020/press52.html
本記事では、障害の原因や再発防止策について、ご説明させていただきます。
障害原因について
今回の障害は、①移動体通信事業者のネットワークに接続する当社装置※1(以下、PGW)において、偶発的な異常が2件同時に発生し、お客さまとの接続が一部切断されてしまったこと、
また、それにより②お客さま情報を管理するサーバ※2(以下、当該サーバ)への再接続要求が大量に発生し、処理が輻輳※3したこと、の2点が原因となっております。
復旧にあたっては、PGWから当該サーバへの情報のルートを切り離し、一時的に当該サーバを経由しないルートへ変更することで再接続要求の処理輻輳を回避いたしました。その結果、通信状態が安定し、2月12日1時30分頃に全プラン復旧となりました。
また、その後、当該サーバの負荷に問題がないことを確認しながら、順次通常運用状態へと回復させました。
(3月13日 20:40追記)
※1. お客さまがインターネット接続サービスをご利用するときは、au、ドコモ、ソフトバンクリアの各ネットワーク(以下、キャリアネットワーク)を経由し、mineoネットワークを通して、インターネットに接続されます。
その中でPGWは、mineoネットワークの入口にある、キャリアネットワークとの接続装置で、お客さまからのデータはすべてこの装置を経由します。装置の構成イメージはこちらをご覧ください。
※2. お客さま情報を管理するサーバは、PGWと連動して動く設備で、お客さまのプランをPGWに通知したり、ご利用されたパケットをカウントしたりする役割を担っています。
※3. 輻輳とは、当該サーバへのアクセスが集中し、処理待ちが連なって混雑している状態のことを示しています。
再発防止策について
当該サーバへの再接続処理に関する負荷の検証を実施し、当該サーバへの新規接続要求に対して適切な制限しきい値を設定することで、処理の輻輳を回避できるようにいたします。
(2020年9月14日追記)
上記対策は、2020年4月27日に完了いたしました。
周知面の改善について
今回の障害では、多数のお客さまから「障害の連絡が遅い」「サイトによって発信タイミングが異なっており状況がわからない」といったご指摘をいただきました。
そのため周知面での改善策として、同種の障害が万が一発生した場合でも、速やかに検知しmineoユーザーサポートに掲載するとともに、マイネ王, twitter, Facebookに自動連携できるようにいたします。
(2020年9月14日追記)
上記対策は、2020年6月5日に完了いたしました。
さいごに
長時間に亘りご利用不可であったこと、また、今回のような事象を二度と起こさないよう関係各所と議論・調整を行ってきた結果ではございますが、ご報告が遅くなってしまったことを、深く反省しております。
お客さまに安心してお使いいただけるよう、今後も日々改善に努めてまいります。引続きmineoをどうぞよろしくお願い申し上げます。
報告も遅く不信感は抱いたままです。
ただ、そもそもの障害の原因と、それに対する対応策が全く書かれていない気がします。
当日は出先にいて地図やスマホ決済が使えなくなり、マイネオの障害とわかるまで時間がかかりました。
コンサートの電子チケット化は今後増えて行くと思いますが、会場入場時に障害がおきた場合大手キャリアなら対応してもらえても、そうではないとやはり不安になります。
Wi-Fiが使える会場ならいいんですが…。
突然、接続できなくなった時の絶望感は今でも忘れられません。
スマホを購入したばかりなのに壊れてしまったのかだいぶ焦りました。
知人にショートメッセージを送ることができた為、通信障害だと教えて貰うことができました。
当日の待ち合わせや連絡待ちの人達は私よりももっと不安な夜だったと思います。
今後も通信障害の可能性はあると思うので、発生時はショートメッセージを送って頂けると助かります。
「通信障害発生中」←コレだけでも安心できます。
どうかご検討をお願いします。
根本原因の偶発的2件の異常は何でしょうか?
冗長化していない?
定期的にメンテナンスしていない?
再発防止策は②についてだけ?
話にならない。
不適合報告書を作成したこと無いのでしょうか?
偶発的2件の異常について、報告と再発防止策を報告して頂きたいです。
この説明では理解できません。なぜ偶発故障が起きたのか、直接的な故障原因は何なのかなぜ起きたのか、なぜ立て続けに故障が起きたのか、保守不備なのか、人為的ミスはなかったか、予想できなかったのか、あらかじめ対策できなかったのか、コスト見合いで省略してなかったか、
1.まずは、この報告遅いと思いませんか?1ヶ月かかってますよ。この間また起きないかと不安でしたよ!
2.この再発防止で絶対に再発しないと本気で宣言できますか?
3.各プラン毎の冗長化はかんがえていないのか,料金の割引はないのか、
私はmineo6契約してますが、mineoだけではリスク大きいため分散を考えてます。次おきたらもっと大変ですよ。
2月11日の通信障害は、1月末の記者発表会のすぐ後というさあこれからと
いうタイミングという事もあり大変だったかと思います。(^^;
さて、再発防止策に関して確認させて頂きましたが、顧客情報管理サーバの
輻輳に関しての対応は行われているものの、きっかけとなったPGWの偶発的
異常に対する対策関しては読む限りは無い様に感じました。
昨年秋にも小規模ながら障害が起きていましたし、可能な限り障害発生
リスクを下げる様にお願いしたい所です。
それと、今回の障害の状況だとSMS(ショートメッセージ)での通知は可能で
しょうから、障害発生時の通知手段として活用出来ないのかどうかも
気になる所ではありますね。(^^ゞ
それでは、これからもよろしくお願いします。(^^
ユーザーがネットを検索しなくても、マイネオ からの正しい情報がわかるように、より多くの手段でユーザーへの通知を行って欲しいです。
大変と思いますが、マイネオさんには頑張ってほしいので、よろしくお願いします。
(某所でも書きましたが、少し加筆しました。)
○広報/運用面
・障害の広報の仕方が適切であったかの検証と改善
障害であること(障害の内容や範囲を含む)の迅速な広報、復旧の予定/想定時間の提示、さらに、適切な代替手段提示など、問題がなかったのか?
そして、その改善に関しても検討して欲しいですね。
○事後フォロー面
・通信障害が起点となった2次障害/影響の検証と対応の改善
障害が起点となってSIMや端末の異常を疑い、SIMの交換等の手続きを行ったり、障害回復後も端末の設定の関係などで、個別に復旧しない場面も多く見られています。
このようなお客様のフォローも適切であったのか、検証と改善を望みます。
キャリアでもある事だし。
Twitterでは告知されていたようですが、フォローしていない人は分からないですよね。
みなさん同じように料金を支払っているのに、サービスにばらつきがでるようでは不公平感しか残りません。
こういったマイネオだけの事故があった時の対応について熟考願います。
他の方が書かれているように偶発的な2件の異常について気にはなりますが、
コスト面も考慮するとMVNOとしてはやれることをやられているかな、というように感じました。
異常が起こらないことが一番かと思いますが、やりすぎると結果料金に跳ね返ってくることになるのも痛し痒しです。
コストも考慮して起こりにくく工夫していただければと思います。
そして、災害時には公衆電話しか繋がらないかもしれないし、他社に分散して複数回線の契約をしたり等、自分で考えて色んな対策しておかないといけないですね。
反省ではなく、教訓に。
これからも期待しています。
偶発であっても原因はあるわけで
それにどう対処したのか・・・
モヤモヤ感だけです。
適切な制限しきい値は
再接続を遅らせるか、させないことだと思われますが
何か異常が起きた時にまた何が起きるのやら。
対策として閾値を設定しても、PGWで再び同様の障害が起きた場合、
結局回線が切断されてしまうのではないでしょうか?
PGWと認証サーバの能力/冗長性の向上と、第二・第三の経路への
自動切換え、PGWの異常を検知し切り離す仕組みの構築なども
セットで行わなければ根本的な対策とは言えないと感じます。
対策として「しきい値を設定した」として終わらせてしまうのは、
一般ユーザーを煙に巻くような行為に感じられますが
いかがなものでしょうか?
応援しています!
せめて、オフラインでも 「通信エラー中で回復に向けて全力で取り組んでいるところ」とだけでもアナウンスが入れば少なくとも故障ではないと安心できるのですがそれは無理でしょうか?
今後どうしたものか、、悩んでます。
で、通信が途切れ慌てました。自分の側に、使い方に原因があると思っていたからです。家族内で言い争いました。ホントに心配で何も手につきませんでした!
夜中にWiFiの飛んでいるところへ走りました。が、わからず...
電話したら通信障害は発生していないという音声が流れたので、余計に不安があおられました。明日どうしよう...と。5、6時間が気が遠くなるほど長く感じ真夜中回復した時間も心配して起きていました!
なおってホッとしましたが、せめて会社側の問題発生であることを大々的に発表してくだされば回復を待つのは大変ではありません。
次回、ご考慮くださいませ!ウチのような人は少なくないと思いますので…
ほんとに二度とこのようなことが起きませんよう、よろしくお願いいたします。
障害があったときは本当にびっくりしました。
Wi-Fiのない環境でしたので、Twitterなども確認することができませんでしたので、もしまたこのようなことがあるのであれば、何らかの方法でマイネオの不具合といくことを報告していただけると安心できます!
これからも応援しています。
原因と対策の開示については好感が持てます。
出先であり、端末の不良を疑い再起動しました。
宿泊先のWi-Fiへ接続して状況把握できました。
御社の回線しか所有していない場合は
何が起きたのか把握するのが難しいと感じました。
今後はユーザーへの通知についてSMSの活用など
少し考えていただければと思います。
他の方もおっしゃるように、「通信障害発生中」とSMSで通知をして頂けると助かります。
そうでないと無駄にリトライや再起動などを行う羽目になります。通信障害であることが分かれば、諦めて待つしかありません。
何卒ご検討のほどよろしくお願いします。
機種を安くしろ。
辛口で申し訳ありませんが、、、、報告、改善は企業として当たり前のことだと思います。
低価格で使わせてもらっているんだから、それなりに不便なところがあっても大目に見るくらいの心の余裕があるべきなのではないかと。
3大キャリア並みのことを要求するのは酷というものでしょう。
詳細を聞いてもどうにかなるわけでもないんだし、専門家じゃなけりゃ改善案とか出せるわけでもないし。
mineoさん、これからもがんばってくださ〜い。
障害が出ている状態を各自確認することが当たり前と思っていた(ADSL時代とか)ので、障害発生の個別連絡が無いことに憤られているコメントを目にして衝撃を受けました。はぁ〜、そういう時代なんだ。
事後報告をちゃんと入れられているのは評価できます。サブのキャリアとしては言うこと無しなので、これからもよろしくお願いします。
今の世の中は、情報にお金を払う時代にシフトしているので、端末が使えないのは不便極まらないですね。
実際すぐに死ぬわけではありませんが、ネットに繋がらないから不安になってしまったユーザーの気持ちは理解出来ます。
まあこの程度の通信障害は料金がキャリアより安いMVNOを選択しているので仕方ないかとも考えます。
この失敗を教訓に更なるサービス向上と経営努力を期待します。
mineo ガンバ~(о´∀`о)ノ
確かに日中「映画館で予約したチケットのQRコードでの発券」「食事後のQRコードでの決済」「ホテルのチェックインで見せる予約コード」「仕事の緊急連絡」とか、ありとあらゆるスマホだけで済ませていること沢山
あるなあと。
どこの業者、キャリアでもあり得ることだから代替案の用意は考えておこうと思った。
万一の際は、なんとか無料Wi-Fiに接続してその情報にたどり着きたいと思います。
他社ルーターを常備かDSDS端末に代えるか...。
SMSで知らせて欲しいですね
それが企業であっても。
ユーザーになると決めたからには、再発防止は強く求めますが応援して見守ることも大切かなと思ってます。
頑張ってください。
ずっと気になっていますが、
マイネオさんが送信するメールの送信日付が前日の17時頃になっていますが届くのが翌日の7時前後です。
文面から前日の内容に思えるので送信日付を調べると前日の日付となっています。
大勢の人に送信するため時間がかかるのでしょうが、メール関連の設備も増強する必要があるのではないでしょうか。
試しに他から自分のマイネオのメールアドレスに送信するとすぐに受信します。