AndroidのGoogleアプリ「繰り返し停止しています」という問題が発生
10月1日、東証のシステム障害で、終日取引停止という大きな出来事がありました。
恐らく、半期の始まりということで、売買の注文も殺到している時期と思われ、東証、各社証券会社、市場参加者様も、平常時よりも混乱したことが想定されます。
夕方の記者会見で、サーバ台数380台と話していたので、原因特定に至るまでの関係者の確認作業の大変さを痛感し、頭が下がります。
私もしんどさが身に染みてるだけに、「本当にお疲れ様でした。」と、まずは書かせて頂きます。
会見に出て来たワード
・共有ディスク、マザーボード、メモリー、フェイルオーバー(異常事態が発生時、連続稼働を可能にするための冗長化)。
・機器、システムは富士通製。
・arrowhead(証券システム)は2019年にバージョンアップ・導入後、まだ機器の交換はしていない。
・セカンダリーの装置もあるが、注文データが消えることを懸念し、データを優先したため使用せず。
・システムにバグは生じていない。
もう少し記者の質問が的を射てくれれば助かったのですが、残念ながら技術的なところでは、不明なところも残りました。
得られた情報からは、機器故障が発生したのは、「共有ディスク装置」で、恐らくはハードディスクなどの記憶媒体が集約されており、(恐らくRAIDなど:複数台のHDDを組合せて冗長化が行え、連続稼働に耐える仕様)、通常は故障時にバックアップ(予備)の共有ディスクが使用され、そのまま連続稼働出来る仕組みだと想定されます。
※RAID:Redundant Arrays of Inexpensive Disks
要するに、ハードディスクが複数台搭載された、サーバ機器ではないでしょうか?
それで、このような機器が約380台あるのでしょうね。
(380台のうち、各々ほかの役割があるかも知れず、380台全てかどうかは不明です。)
メモリーについては、ECC対応(パリティエラーチェックが出来るメモリー)を使用しているのでしょうが、それが何らかのエラーで正しく動作せず、データが正常にバックアップの共有ディスクに引き継ぎが出来なかったのではないか?と考えられます。
※ECC:Error Checking and Correcting
また、導入が2019年ということで、記憶媒体はハードディスクの他に、故障の確率が低い、SSD(メモリーをディスクドライブのように扱える補助記憶装置)の可能性もあります。
※SSD:Solid State Drive
推測まとめ
情報からの推測としては、ハードディスク(またはSSD)等の記憶媒体が故障し、メモリー等の異常により、RAID機能などがうまく動作せず、今回の事象に至った。
故障原因を改善後(または故障部位を切り離しにより)、市場時間内にサーバを再起動することで、通常業務は可能ではあったが、証券会社などからの注文ストックなどのデータが消えてしまうため、その方が混乱を招くと考えた結果、終日停止を決定した。
こんな感じではないかと考えられますが、ピッタリ当たっていなくても、恐らく大きくはハズしていないのでは?と思われます。
また、一日だけのトラブルなら、まだ海外投資家も大目に見てくれるのではと…。
明日は通常通り売買再開するとのことですので、これ以上のトラブルが無いことをお祈りいたします。
重ね重ね、関係者の皆様、本当にお疲れ様でした。
このようなコラムが、少しでも皆さんのお役に立てば幸いです。