みずほ銀行オンライン・システム障害について

公開: 2021年10月21日

更新: 2022年1月26日

あらまし

2021年6月5日、みずほ銀行は、同行が設置した社外の特別調査委員会がまとめた調査報告書を発表した。ここでは、その報告書と同時に公表された報告書要旨の記述に基づき、2021年2月末日からのシステム障害発生と、障害発生が認知されてからの同行内における、関係部門での対応、経営陣の対応などの記録に基づいて、2021年のシステム障害の原因と対応における問題点について指摘する。

みずほ銀行では、2002年の統合時から、周期的に大規模なシステム障害問題を引き起しており、2021年のシステム障害も、以前に発生した問題と無関係ではない。そのような周期的に起こっている同行のシステム障害の背景にある経営上の問題、組織上の問題も含めて、ここでは広い視野から問題点を整理する。

2021年調査委員会の報告

ここでは、2021年6月15日に、システム障害特別調査委員会が公表した、調査報告書(要旨)に基づき、そこに記された内容について、ソフトウェア工学の専門家として、何が言えるのかをまとめる。この委員会は、みずほ銀行の勘定系システムにおいて、2021年の春、計4回にわたって発生したシステム障害について、中立・公正な立場から、外部の委員が、原因の究明と再発防止策の妥当性を評価し、提言することを目的としていた。委員会は、報告書をまとめるために、行内に残されていた資料の精査、関係者に対する聴き取り調査、現地調査、コンピュータに残されていたメール等の調査、そして同行関係者へのアンケート調査等を実施した。

1) 2021年3月1日の障害

2021年2月28日に、同行では新しく導入するシステムのサービスである「みずほe口座」への一括切り替えを準備し、3月1日8時24分から「一括切り替え」を実施した。新しいプログラムの処理中に、取引情報を一時的に記憶し、データベースへのアクセスを軽減し、性能を高めるための索引ファイルの容量超過が発生した。これにより、口座ファイルへのアクセスが不可能となり、一部の預金処理の継続ができなくなった。そのため、ATMを利用していた顧客の一部に、キャッシュカードがATMに取り込まれたまま取り出せない問題が発生した。さらに、それらの顧客の個人情報を管理するファイルへのアクセスに対して排他制御を行う機構で、排他制御のためのロックが解除されない状況が発生していた。

サーバ側の処理は、口座ファイルへのアクセスの排他制御のなどが異常終了した場合、ATMに挿入され、処理途中の通帳やキャッシュカードは、そのままの状態にすることが仕様に定義されていたため、通帳とキャッシュカードは、ATMに取り込まれたままになったのである。

3月1日の9時50分から10時5分までの間に、6,000件を超えるエラーがシステム操作員が監視しいている画面に表示されていた。このことを感知した運用担当者は、10時頃、システムの異常事態を察知し、緊急事態が発生していることを運用責任者へ電話で報告した。

報告を受けて、運用センターでは、問題の原因究明を開始するとともに、コンピュータ処理の一部停止手順を開始した。しかし、現実にその処理が実施に至ったのは、責任者がATM処理の滞りを認知した午後5時を過ぎた頃であった。それは、障害が発生してからほぼ7時間が経過していた頃であった。処理の停止が実行されたのは、午後6時半を過ぎてからであった

ATMによる処理の仕掛中にシステム障害に会い、通帳やキャッシュカードがATMに取り込まれたままの状態になっていた顧客に対して、同行はATMセンターからの遠隔操作、契約している警備会社からの職員の出動、支店等の銀行職員による緊急対応によって、通帳やキャッシュカードの返却作業を進めたが、事故事例が多く、人手が不足して、多くの顧客を長時間、待たせる結果となった。さらに、通帳やキャッシュカードの返却が完了すると、あたかも問題が解決し、平常に戻ったかのような状況になるため、次の順番を待っていた顧客がATMでの操作を開始して、通帳やキャッシュカードが再び、取り込まれる状態も多数発生した。ATMの障害に遭遇し、当日の間に通帳やキャッシュカードの返却を完了できた顧客の数は、1,244人、顧客が当日中に返却を受けられず、希望した返却方法で、返却を1週間以内に受けられた人の数は、5,152人、全ての返却が完了したのは、1か月半以上を経過した2021年4月22日であった。

調査委員会は、障害が発生した原因が、システムの運用に関わる人々の意識や技術的知識の問題であるとしている。しかし、調査委員会が障害の原因としている索引ファイルの容量を超過して処理が実行され、結果として処理能力を超えた処理の実行によって障害が発生したことは、設計上の容量見積りの問題であり、「運用上の問題」とは、言えない

ATMの処理中に、通帳やキャッシュカードが、ATMに取り込まれたままになる問題は、2021年3月以前にも、2018年6月に、1,821件発生していた。この時、問題の原因究明と対応策の検討・実施が必要であった。しかし、システム開発を担当した部署では、この問題に対する対応策は検討されなかった

調査委員会は、2021年3月1日8時の問題の発生から、同行で初期の対応に着手するまでに1時間以上の時間が経過したことが、障害の問題が拡大した原因としている。この間、コンピュータを運用している操作員からは、コンピュータの監視画面に表示された膨大な数のエラー・メッセージの内容から、緊急対応が必要なことが報告されていた。しかし、この報告を受けた運用管理の責任者は、その問題の重要性を認識せず、結果として放置した。このことが、問題が拡大して、重大な障害に発展した原因の一つであると、調査委員会は指摘している

障害発生時の支店での 顧客対応でも通帳やキャッシュカードをATMに取り込まれた顧客の困惑度について、十分な認識がされていなかったとした、調査委員会の指摘がある。顧客対応を担当した部署では、システムの運用を担当している部署からの指示通りに処理を進めることが優先され、顧客の視点で「何が問題になっているのか」を考える姿勢に欠けていたと指摘されている。現場での対応として、「システム障害が発生していることを、顧客に知らせる」などの対応が採られていなかったことが、問題の影響を大きくしたと指摘している。

調査委員会は、経営陣を含む組織の問題として、障害発生直後からの組織における情報や状況認識の共有が少なく、障害発生を受けた臨時対応組織の設置が遅れ、当日の夕方になるなどの、組織的な問題への対応の遅れが著しかったとしている。これは、同行の危機管理体制が、ほとんど機能していなかったことの証左としている。


2) 2021年3月3日の障害

2021年3月3日19時58分、ネットワークを動かしている設備の一部で故障が発生し、ネットワークの切替が完了するまでの3分間、システムの通信が不安定となり、切替完了後、正常に復帰した。この間、ATMにおいて、通帳・カードの取り込み問題が、29件発生した。また、宝くじの購入取引が不成立となる問題が7件発生した。

この障害の原因は、ネットワーク機器のメモリ故障であったことが分析の結果、判明した。

この障害発生で、通帳・カードのATMへの取り込み事故が29件発生したが、当日中に顧客へ返還できたのは、14件であった。また、ATMセンターへの電話が繋がりにくくなっていたとの意見も寄せられていた。


3) 2021年3月7日の障害

「カードローン商品の延滞利息徴求機能」処理に係るプログラムの開発を実施、その利用を開始した際、当該プログラム設計に、本来必要であった初期化処理の組込み漏れが存在したままになっていた。このため、3月7日6時8分、総合口座定期入金の集中記帳処理でエラーが発生した。 定期入金取引が不成立になった顧客に対して、問題が説明され、すぐにATMでの定期預金の一部処理が停止された。この時、顧客での混乱は、特に生じなかった。

分析から、初期化処理の組み込み漏れを認知し、修正プログラムを作成、それを導入して、同日13時42分、定期預金入金取引が正常に再開された。


4) 2021年3月12日の障害

2021年3月11日23時39分、コンピュータセンター内の記憶装置群と処理サーバ間でのデータ交換を行う制御装置が故障し、サーバ上で稼働していた業務システムが停止した。

停止した業務処理は、集中記帳処理のためのファイルを基盤サーバ間でデータ交換を行うファイル交換処理と、外国為替送金処理であった。

記憶装置群におけるエラーを検知したのち、記憶装置の復旧作業が行なわれた。記憶装置群とサーバの間を接続するデータ交換のための機器を交換して再稼働したが、記憶装置群とサーバ間でのデータ交換は、正常には再開できなかった。

サーバの再稼働を行うことで、問題の処理は再開されたが、全サーバの処理を再開するまでには、6時間41分、ファイルを介したデータの授受を再開するまでには、6時間59分を要した。

国内の他行向け仕向送金263件が、3月12日中の締め切りに間に合わず、外為被仕向送金の入金案内処理761件が、12日の〆締め切りに間に合わなかった。

一部の顧客を除き、顧客に対する説明は、翌営業日に持ち越された。

国内他行向け仕向送金については、3月12日付入金処理に発生する金利・為替手数料をみずほ銀行が負担する条件で、他行との調整が行われた。

外為被仕向送金の入金案内処理については、受取人に連絡、入金日について意向確認を行い、3月31日時点での入金を確認した。

報告書では、障害発生の原因が、ある外部企業との契約に基づくサービス提供を受けている機器の故障であることから、装置の故障に関しては、みずほ銀行側に問題はなかったとしている

調査委員会は、障害発生時の対応として、復旧までに要した時間の長さを問題にしている。特に、復旧に要する時間について、サービスを提供している企業との間で締結している提供するサービスの質保証に関する契約(Servoce Level Agreement)に、「復旧時間に関する合意が欠如していた」ことが、問題であったとしている。

外為システムの復旧について、機器の再稼働後に、「適切な復旧手順が取られなかった」と指摘している。これは、サーバと記憶装置群の間での「データの送受信の確認」と、「処理件数の確認」などの基本的な事項のチェックを怠ったとしている。委員会は、復旧過程における部門間での連携や、情報交換を確認する障害対応訓練の不足も指摘している。


5) 総括

調査委員会は、2002年、2011年に発生した障害事例の分析で指摘されていた人為的側面の問題と、2021年の障害事例にも見られる共通の問題として、以下の点を挙げている。

さらに、それらの根底には、これらの問題を容易には改善できない体質、または企業風土が醸成されていると述べている。

調査委員会は、組織力の問題として、部門間の横の連携が十分に取られていなかったこと、組織の縦方向での、情報の伝達に不備が目立ち、組織として情報が適確に共有できなかったことを問題にしている。特に、非常時に一元的な情報の集約ができなかったこと、緊急対策チームの設置が遅れたため、対応が後手後手に回ったことなどを問題視している。

調査委員会は、ITシステム統制力の問題として、オンラインシステムの安定稼働は、経営戦略上の最重要課題であるとしている。特に、障害の影響は広く波及する可能性があり、システム構造の劣化による障害現象の複雑化や、障害発生時の影響を局所化し、障害への対応を容易にするためのシステム構造の整理・単純化への投資がされずに放置され続けていたことは、問題が大きくなったことの要因であるとしている。これは、人材や資金投資を、「リスクを考慮して最適配分する経営的な配慮が欠けていた結果である」と指摘している。例えば、索引ファイルの容量不足問題では、すでに問題が発生していたにもかかわらず、対応が先送りされていたことなどである。

調査委員会は、「顧客視点」の問題として、みずほ銀行が「ビジョンを追求する上で共有する価値観・行動軸」の第一に「お客様第一」をあげているにもかかわらず、様々な問題の対応において、顧客視点での検討がなされなかったことを指摘している。顧客に影響が及ぶ可能性のある問題は、それを最優先にした対応が考えられるべきであった。現実には、多くの問題で、行内における影響の最小化が優先され、顧客への問題の波及への考慮が、行き届いていなかった。


(つづく)