全日本空輸(ANA)が2016年3月22日に起こした国内線旅客システム「able-D(エーブルディ、以下では便宜上開発コード名のANACore:アナコアと称す)」のシステム障害では全国49の空港で搭乗手続きができなくなり、ANAと提携航空会社5社の合計で719便、7万2100人以上に影響を及ぼした。インターネットや予約センターでの予約などもできなかった。
DBサーバーは米ヒューレット・パッカード・エンタープライズ(HPE)のUNIX「HP-UX 11i B.11」を搭載する「HP Integrity Superdome」を使い、データベース管理システム(DBMS)は米オラクルの「Oracle Database 11g」を使っていた。ANAが使うSuperdomeは1.66GHzのItanium2を12個と、64Gバイトのメモリーを搭載する。
4台のDBサーバーはオラクルの「Oracle RAC(Real Application Clusters)」を使ってクラスタリングして、可用性と性能を向上させていた。分散したDBサーバーが協調して処理を進める場合、ストレージ上のデータを共有する「シェアードエブリシング(共有ディスク、シェアードオールとも呼ぶことがある)」や、それぞれのDBサーバーにのみデータを持つ「シェアードナッシング」と呼ぶアーキテクチャーを採る。RACの場合は前者の「シェアードエブリシング」である。
ANACoreではストレージは2台のミラー構成を使っている。4台のDBサーバーはそれぞれに同時に書き込む。この時、ストレージ上のデータが一貫性を保って参照・更新されるように、4台のDBサーバーは高速な専用ネットワーク(インターコネクト)を通して、メモリー上に展開したデータなどを転送し合う。今回、インターコネクトで使っていた米シスコのスイッチ「Catalyst 4948E」が故障し、最終的にDBサーバーの4台停止につながった。
システム・エラー (*)