掲示板

障害の原因出ました。

何らかの原因で一部に障害発生。

それで過負荷になった。
と言う感じでしょうか😅

https://king.mineo.jp/informations/215

再発防止を、検討中、との事です。


36 件のコメント
1 - 36 / 36
なんで原因を解明するのに二週間も掛かったのか?

闇に葬ろうとしたけど、追求の手が緩まなくて仕方無く公表したとか😨

どこかの国🇨🇳じゃあるまいし(-_-;)
こんにちは。

んー、結局は冗長経路が無い、または逼迫しているということですかね。回線に余裕がないということの現れ?
障害の原因が出てよかったですね。
mineoさん、ありがとうございました(^o^)/
5gh
5ghさん・投稿者
SGマスタ
対策は
サーバー強化?だと
思います^_^。

と素人は思いました。
>>移動体通信事業者のネットワークに接続する当社装置(PGW※)において、異常が発生し

その異常の内容は?
と言いたいが、たぶん、専門用語の羅列で聞いても分からないでしょうな
(^_^;)
>移動体通信事業者のネットワークに接続する当社装置(PGW※)において、異常が発生し、お客さまとの接続が一部切断されました。
これに伴い、再接続要求が大量に発生し、お客さま情報を管理する設備の処理が輻輳したことが原因と判明いたしました。
現在、再発防止対策について検討を進めており、後日改めてお知らせいたします。
※ PGW:LTE接続において、お客さまとの接続を行う通信機器

  ↑
輻輳は判っています。

PGW の異常の原因を
教えてよ❗
半月も経っているのだから
と、思ったののは
私だけ?

866905A2-BC71-472B-B664-9C3B1D0E31C8.png

引用元;ケータイwatchーーーケータイ用語の基礎知識 第850回 コアネットワークとは
https://k-tai.watch.impress.co.jp/docs/column/keyword/1114990.html#02_l.png

ここの、「他ネットワーク」の先がおそらくmineoかな?と思います。
ですので、この図では、PGWというところが橋渡しの要で、ここが要因だった...ということですね。
https://king.mineo.jp/magazines/special/69

PGWとは何か、は過去のスタッフブログにある通りで、簡単に言えばルーターですよね。

mineo_ネットワーク構成.jpg

古いものなので au しか載ってませんが…。

mineoのデータはどんな経路を流れているの? 2015/04/08
https://king.mineo.jp/magazines/special/69

続・mineoのデータはどんな経路を流れているの? 2015/04/23
https://king.mineo.jp/magazines/special/76
今頃、この内容で、お知らせする目的が?です。
mineoの利用者にとって有用な内容なのでしょうか?
例えば、「お願い : 今回の障害が大きくなる流れが判明しましたが、現時点では根本的な原因が判明(対策も実施)しておらず、再発の可能性もあり、その際には利用者の皆様におかれましては、...して再接続は控えて頂くようお願いします...」とか、発信する目的を考えて欲しいと感じました。

無題.png

Ciscoの PGWとして現行機種である ASR5700の製品情報を見て思わず「あれ、これって UCS5108じゃない?」と思ったらそのものでした。
(画像が UCS5108サーバーブレードであり、これが ASR5700のコアです)

※要は最近のシステムだと IAサーバー上に処理用の OS(StarOS)が乗っている。
 UCS5108の正札価格(ハードウェアのみ)を知ってる身としては
 「いやあ、ASRシリーズとして売るならxx円くらいじゃない?」と
 そろばん弾きました。
→単位や数字は皆様のご想像におまかせしますが、そんな簡単に導入
 できる金額じゃないです。

ちなみにASRシリーズは電人さんの仰るように Advanced Service Routerですので、ルータの一種です。IP以外の様々なパケットを扱えるマルチルータなので、皆様のご家庭にあるようなルータとは中身がちがうというか。

そういえば、同じようなシステムで Ciscoは ACI(Advanced Converged Infrastructureだったかな?。要は SD-WAN[ソフトウェア制御のネットワーク機器]向けシステムです)もありますし。

確かこの手の製品は「増設すればよいというお気楽な代物ではなかった」と記憶してます。

※過去にこの手の製品でインプリメントミスから、私は全く関係ないのに
 勝手に責任追及されて、実はインプリメントしたところが悪かった、
 という大騒動に巻き込まれた記憶があるので。
→自分で原因想定調べましたし、実は他所様が原因だったと(以下略)
PGW周辺には以下の機能が載ったサーバーもあるはずでずよね。

Traffic Management Solution(トラフィック最適化ソリューション)
https://jpn.nec.com/nsp/tms/index.html
https://jpn.nec.com/nsp/tms/product.html
DプランやSプランの方が影響が出た件数が多く、ほぼ全ての契約者の数字では
ないかという所から推測すると、ドコモやソフトバンクと接続するPGWで異常
が起き、それに伴い顧客情報管理システムに再接続要求が大量発生した為、
Aプラン利用者にも再接続が出来なくなるといった障害が起きたのだと
思いました。

Dプラン、Sプランのほうが復旧までに時間が掛かったという事も考えると
PGWの再起動作業の分だけ復旧までの時間が遅くなったのかなと
感じました。

ただ、あくまで発表内容から私なりに考えた推測なのでこれが正しいかは
分からないです。(^^;

再発防止策の検討をされているとの事ですので、それによって安定して
mineoの通信サービスが利用出来る様になる事を期待したいと思います。
すみません、一つ訂正します。

「UCS5108」は UCS Bシリーズ(ブレードサーバー)のシャーシです。
大変申し訳ありません。

※Ciscoの ASR5700画像を見る限り、この状態だと UCS B480あたりの
 4ノードですね。UCSって普通の IAサーバーとちょっと考え方が
 違うので管理大変なんですよねえ。
→基本的に MACアドレスがない(厳密にはあるんですけど対外的に
 ネットワーク上へ提供されない)んで、管理する場合、ブレード
 だと「どのノードがどういうホスト名なのかを調べるには専用環境
 がないと分からない(昔は UCS Directorとか使いました)」という
 なかなか変わった IAサーバーなので。
 対外的なネットワーク上の MACアドレスも UCS Directorなどで割当
 をおこなって、それで初めて「ネットワーク上から認識できる」と
 いう、考え方によってはかなり癖のある製品です。
 (ラックサーバーの Cシリーズは最悪単体管理できます)

これ、1回の設計で何度泣かされたことやら.....(遠い目)
→そんな予備知識も与えられず、全て真っ更から環境設計したこと
 あります。わからないところは自分で Ciscoのページから documents
 拾ってきて内容を読み解きながら環境設計しました。
 (IAサーバーとしてね)
 IT業界ってつくづく「何かあると叩かれるけど、逆に何もなければ
 褒められもしない」お仕事ですからねえ。忍びのお仕事です(笑)。

やはり聞いても何のこっちゃサッパリ分かりまへん(笑)
( ˘・з・)チェッ さん

大丈夫です。
殆どの人は分かりませんから…。
まあ、気になる人は気になるんでしょうけど…

私には、平日12時から13時までの障害のほうが大きな問題ですな(^_-)
5gh
5ghさん・投稿者
SGマスタ
何もなくて当たり前、

野球の審判みたいなものですね😁

昼間遅いのは仕様です😅
>gh さん
>昼間遅いのは仕様です😅

 しようがないですね^^;
私の端末だけいまだに通信障害が…………(笑)

mineoさんに電話したら、「わからん」って結果に。

なんでmineoのお試しSIMがずっと使えて本家のSIMが急に使えなくなるのよ(笑)
意味わからん😂
なんか、難しい設備の話しになりましたね。
it素人にはまったく分かりませんが、これ以上の発表はなさそう。
>> るぴたん3世さん

> なんでmineoのお試しSIMがずっと使えて本家のSIMが急に使えなくなるのよ(笑)

mineo SIMの呪いです
      🙄 😉
2月11日の通信障害発生の報告、読みました。難しい事で良く
判りませんでしたが報告を早くして欲しいのと。今後、この
ようになった時を明確にして欲しかったです。
neo-mattsanさん

ひぇ〜呪い?😱💦

藤圭子?15〜16〜17と
私の人生、暗かった…………😱
そして、その呪いは一週間後に・・・・・・・
 技術的な原因と対策は、残念ながら聞いてもわからないし、はっきり言ってどうでもいい。
 問題は、今回の障害をmineoが単なる通信障害としかとらえられないところだと思います。
 実際は、mineoの行動指針が、本当に機能しているのかを疑わざるを得ない、顧客満足度への影響が大きい事故だとわたしは思っています。
・障害発生を初期の段階で捉えることができなかったのか?
・障害発生が確認されたとき、サポートやマイネ王、その他手段でのユーザーへの告知がうまく機能したのか?
・mineoの各部署が緊急事態対応計画に沿って過不足無く対応できたのか?
・そもそも”緊急事態対応計画”があるのか?
 少なくともユーザーとのつながりを大事にしているmineo(マイネ王含む)であれば、上記の観点からの原因追究と対策も、当たり前のことのように出てきてほしいです。
報告内容に関してはアバウトですが、約2週間強の期間に関しては妥当かなとは思います。
あと皆さんのコメントを見て、なんとなーくどこのあたりのエラーだったのかもイメージがわきました。
今後のエラー対策は勿論なんですが。
通信出来なければTwitterもマイネ王も見れないから、ほぼほぼ人間の心理としては、まず端末が悪いのか?と考える方が大半かと。
そのあたりもどんな対策をして伝えて行くか、、、
私はたまたま家Wi-FiでTwitterで知りましたけど。通信ができなければ知る術もなく。どうしたら通信オフでも障害を伝えられるかな、とか思います
タイミングよく?自宅のルーターが不具合(笑)
ルーターの再起動で回避できました。

熱暴走かな〜(^_^;)

数カ月前から調子悪いってわかってましたけど(笑)

んでもって、今週になって新しいルーターを特売でゲット済(笑)

えのくは、mineoの通信障害に備えない派?ですが自宅のネットはeo光(^_^;)
eo光がコケると電話も出来ない。
自宅が停電になったら電話も出来ない。

通信障害に備えるんだったら、アナログ回線を引っ張って来ないとダメだよ(^_^;)
>>移動体通信事業者のネットワークに接続する当社装置(PGW※)において、異常が発生し、お客さまとの接続が一部切断されました。

コレはまあ100歩譲って起きてしまったとして…
 

>>これに伴い、再接続要求が大量に発生し、お客さま情報を管理する設備の処理が輻輳したことが原因と判明いたしました。

ツッコミどころはこっちだよなー
障害→再起動→過負荷って”あるある”な定石ですよね。

ネットワーク・アプリ・DBが縦割り体制だったなんてオチでないことを祈るばかりです。(=人=)ナムー
出てきたタイミングはとても遅いですね。。。

・・・⇒[SGW]⇒(POI)→[PGW]→[PDN]

PGWはI/Fで単体の装置???冗長化/高可用(負荷分散や耐障害性向上)設計にはできない類のものなのだろうか?…と素人は感じました(;^_^A

そもそも、、、想定する対象読者(の知識レベル/知りたがっているであろう内容)と、この記事の記載内容は果たしてマッチしていると言えるのだろうか。。。(◎_◎;)
amiyyさん

「ネットワーク・アプリ・DBが縦割り体制」ってどういうイメージなんでしょうか?

縦割りじゃないとすると、顧客管理アブリがネットワークを監視して何かするとか?
すみません知識ないので、ネットワーク・アプリ・DBはそれぞれ独立しているイメージしか無いてす。

あ、文句言ってるわけじゃなく単純に、一般的な事がわからないので知りたいです。
さとさんへ

>>「ネットワーク・アプリ・DBが縦割り体制」ってどういうイメージなんでしょうか?

うまい例えではないですが『指揮者のいないオーケストラ』って感じです。
それぞれの楽器ごとに縄張りが合って、全体として調和してない風というか。


>>ネットワーク・アプリ・DBはそれぞれ独立しているイメージしか無いてす。

独立してます。
ただ独立した中の正解が、全体の最適であるとは限りません。
PGWはネットワーク屋の担当ですが、これを直すのはネットワーク屋さん的には正解です。
ただコレを直すと、大量の再接続申請がアプリケーションに届き、そこでアプリケーションやDBがダウンすることは想定され、結局はもっと大きな障害になります。

なので、各分野の連携をとって『全体として最適』な方向を目指す指揮者の存在は欠かせません。
これは協力会社やベンダーではできないので、オプテージさんの仕事でしょう。


>>あ、文句言ってるわけじゃなく単純に、一般的な事がわからないので知りたいです。
大丈夫です👍
amiyyさん

監視アプリ的な感じですかね?
こっちがバグったらそこを遮断するとかですかね。(そんな事できるんですかね?わからない)
障害時担当者に通報とかは、各々の機能であるでしょうけど、そこで終わったら単体機能でしかないですよね。
自動的に何かのフラグ(障害時書き込まれる)を見て処理するとかかな。
>>監視アプリ的な感じですかね?
どちらかというと部署や会社という人事的な隔たりですかね。
優れた運用監視ツールや自動化があっても、今回のような大規模障害のときは人力対応が肝なので。

||1.日時:
||発生日時:2020年2月11日(火)19時34分頃(24時間表記)
||復旧日時:
||Aプラン:2020年2月12日(水)0時30分頃(24時間表記)
||Dプラン、Sプラン:2020年2月12日(水)1時30分頃(24時間表記)

おそらく、D/S後回しにしてAに全力振り向けてまず復旧させたのだと思います。
110番通報できない状態で重大な状態だったので。
Aが安定した状態でD/Sの復旧を始めたのでしょう。
ユーザー数からいったらSから直したほうが確実だと思いますが、そのへんは忖度したんでしょうな。
amiyyさん

あ、「縦割り体制」ってシステム構成の話じゃなく、担当者が縦割りという意味だったのですね。今わかりました(笑)

それはもう、mineoの対応見ていたら皆気付いていますよね。全体を細かい所までわかる人が居ないんだろうなって、全部バラバラに外部委託でベンダー任せなんだろうなって。
コメントするには、ログインまたはメンバー登録(無料)が必要です。