システム連携の難しさについて
7月2日の深夜帯に起きたKDDIの通信障害について触れていきたいと思います。
様々なところでニュースになっており、内容自体はご存知かと思います。
私自身は通信系のエンジニアではないので詳細はわかりませんが今出ている情報を踏まえて、
システムと絡めてお話できればと思います。
事象としては障害が起こったタイミングでルータ入れ替え(ハード入れ替え)を行ったようですが、
その際に設定が誤っており、通信が止まってしまった時間があったようです。
その間も通信リクエストがずっとあったようですが、それがたまってしまい、
ルータ以降で処理する部分でパンク状態となり大規模通信障害となったようです。
こちらの記事を記載した7月5日時点では解決しておりますが、私個人の携帯は
AUを使っておりますが、4日の午前中までは繋がり難い状況でした。
今回の問題点は2点あると思います。
①異常が起こった際のリカバリ案の検討不足
②利用者への周知の遅さ
どちらもシステムにも言えることになりますので、そちらを踏まえて記載します。
①については人がする作業ですからミスは起こりえます。ルータ入れ替え自体は
定期的に行うもので、そこまで特別な対応とは思って作業をしていないと思います。
そこに落とし穴があると思います。いつもの対応という形で対応した結果、予期せぬ問題が起こり
今回の障害に繋がったということです。
そしてルータ入れ替えが失敗した場合にパンクする可能性は予想ができる状況と思います。
その想定や対応を怠っていたと思われても致し方ありません。
システムの場合もそうですが、通常に動作する正常系よりも何かトラブルがあった場合の
異常系のケースをどれだけ洗い出せて、どれだけ対処できるかという部分が肝であります。
そしてその異常系をどれだけ想定して手が打てるのかがエンジニアの腕の見せ所でもあると思います。
②については周知が遅れたところです。上記理由から無駄に試そうとすればするほど問題が
大きくなることはわかるかと思います。
そうなると周知を様々な媒体を使い協力を促す必要がありました。
携帯が使えないのですからテレビやラジオも含めた様々な媒体で展開する必要がありましたが、
その周知が遅かったことでAUショップへ殺到するということが起きてます。
システムも同じです。使えない状況になった場合は速やかにお客様に伝える必要があります。
自社ページやSNSなど使える媒体でお伝えし、サポートもその覚悟で対応いたします。
我々としても今回の問題を教訓として社内教育を徹底したいと思います。