大規模なネットワーク接続障害、8/25のインターネット障害の情報を追ってみた。Googleの公式情報はどこに。。

先日、2017/8/25にインターネットのサービスの多くが大規模接続障害のため接続できない、または不安定になる事象がありました。色々と情報が出てきていますがなんとなく気になったので情報を探してみました。

 

と、書いている最中にこれで十分だろってサイトを見つけたので参考に添付。

この記事見ればこの接続障害でどれだけの影響が出たかがわかります。(丸投げ;)

8月25日に発生した大規模通信障害をまとめてみた - piyolog

 

 

実際のところ公式情報以下にリンクした程度の情報だけ。

で、当のGoogleも誤った情報を広告したという情報はあるが公式情報が見つけられていません。いまいちピンと来てないのですが謝罪はしているようなので何らかな情報は出てくるでしょう。

 

余談、BGPの知識として

IPルーティング入門(2):BGPの仕組みと役割を理解する - @IT

 

でも、なんかモヤっとする。。。

 

当日、実は私の周りではあまり影響を受けませんでした。

昼休みにたまたま個人的に使っているサービスが止まっていたので調べ始めたのが発端。(何気にそのサービスは夕方まで復旧しませんでしたが。。)

で、Twitterをみたら大規模な障害が疑われる、やocnが何かやらかしたやら、KDDIだ、など情報が錯綜し、Googleという言葉は一切出てきてない状況。

 

ダウンディテクターで調べたところocnで障害がありそうだというのはわかったのですが他にもかなりの影響がでていたのでこれはなかなかすごいことだなと仕事をしながら色々と情報は追っていました。

| 週間の障害発生トップ 10 Down Detector

 

普段の障害で経路切り替えであれば、少し経てばたいていは落ち着いてくるものそれがなく、何かモヤっとした状態が半日続くという。

 

Twitter上ではこんな状況

News about ネットワーク障害 on Twitter

 

こういったときははっきりしない情報ばかりみてても良いことはないのでこんな時は公式情報を探してみます。

 

で、公式情報で見つけられたのは

ocnが公式情報としてバックボーンネットワークの障害が発生し30分で復旧したという情報をリリース。

OCN バックボーン(OCNご契約者すべてのお客様)の工事・故障情報 | NTT Com お客さまサポート

 

KDDIからも障害情報

障害情報 –KDDIインターネット・常時接続サービス – | KDDI株式会社

 

さくらインターネットも被害を受けた側、上位回線で障害と情報リリース。 

メンテナンス・障害情報・機能追加|さくらインターネット公式サポートサイト

 

公式ではないが記事として、、googleが誤った経路情報を配信

ニュース - [続報]OCNの通信障害、米グーグルによる誤った経路情報の大量送信が原因か:ITpro

 

で、謝罪したという情報(取材で?)

Googleが謝罪 大規模ネット障害は通信装置の誤操作が原因だった

8分間の誤った経路情報の広告であれだけ大規模な障害になるのか。。

 

で、接続障害の原因、というか事実関係書いているのはこのあたりでしょうか。

BGPの経路交換(BGP Advertisements)で思ってたんと違う情報が流れたため日本の多くのサービスに影響を与えてしまった。

(米国経由のルーティング情報が広告されたことでパケロス、方々で再送?負荷でフリーズ等)

ISP(インターネット接続事業者)などの組織は「AS番号」という番号で表される。NTTコムのOCNのAS番号は4713。「NTTコムとピアリングし、大量の経路情報を流したのはAS番号15169の組織とみられる

 

うーん。なんかタイミングがよくない?。。。たまたまでしょうか?

たまたまOCNの大規模なバックボーン障害の復旧とタイミングが合ってGoogleが誤った経路情報をリリースしてしまったのか?

トリガーはどこなんだろう。。複合要因?

OCNの障害はGoogle 起因?それともOCNの障害が起因?たまたま重なっただけ?

と色々な疑問が頭の中に。。。

このあたりはこれだけのサービス停止があったからこれから明らかになってくるんでしょう。。

特にGoogleからの公式の情報が気になるところです。

 

英語サイト探してたらこんな面白い情報はありましたが。。

BGP leak causing Internet outages in Japan and beyond. | BGPmon

  

それにしてもASレベルのネットワークともなると、一企業のふとした設定ミスでこれだけのサービス停止が起こってしまうんだから色々と考えさせられる事象だなと改めて思ったのでした。

 

いかがでしょうか。