宇宙ステーション余話
先号   次号

「国際宇宙ステーション余話」

長谷川 義幸:4月号

第 6 回

■宇宙ステーション統括コンピュータ故障で危機
・ 2001年4月19日(火)夜、国際宇宙ステーション全体を統括管理する米国実験棟のコンピュータが突然停止。バックアップコンピュータに自動的に切替わり起動したが、ハードディスクドライブエラーが発生し停止。地上管制官は、背筋がぞっとして身体全体に冷たい空気が流れるのを感じた。ヒューストンの宇宙ステーション管制センターには緊張が走った。地上管制官は、冷静さをとりもどし、直ちに3台目の予備コンピュータを起動させたが、すぐに停止。 1999年宇宙ステーション組立てが始って以来の最大の危機状態となった!!
・NASAでは、予め決められている危機管理の手順に従い、直ちに、緊急連絡網の技術チームに召集をかけた。そして、技術チームとの協議に基づき、統括管理コンピュータのさらなるバックアップである米国実験棟に設置されている実験運用コンピュータのソフトウエアを、急遽入れ替えて起動し応急処置を開始した。
  ・ 統括管理コンピュータは、通常は1台のコンピュータが運用を行っており、別の1台はバックアップ用(電源を常時オンにして待機)、さらにもう1台は、非常用の待機用(電源は切って待機)しているが、今回の故障で3台とも機能を失ったことになった。
・ 統括管理コンピュータが故障したため、不具合発生から約25時間に亘り、宇宙ステーションの管理はできなくなり非常事態となった。 しかし、生命維持システムや姿勢制御システムは、分散された別のコンピュータにより行われていたため搭乗員が生命維持できる環境にはあまり支障を与えなかった。
・ さらに、3重故障にも耐える設計思想のおかげで、本来は別の機能を担当しているコンピュータを急遽統括管理用に切り替えることにより難を逃れることができた。

■有人宇宙船の安全設計
(1)宇宙ステーションコンピュータの安全設計

 宇宙ステーションには、全体を指令制御するコンピュータが3台、米国実験棟に搭載されており、姿勢の安定化、地球との通信リンク、ロボットアーム、および実験施設の運用監視を担っています。
 宇宙ステーションのコンピュータシステムは、集中型のシステムではなく、機能を分散させて個別管理し、それらを統合コンピュータで全体管理する仕組みなっているため、サブシステムが故障しても全体の足を引っ張ることにないように設計されています。 このため大型コンピュータを搭載する必要がなく、小型のコンピュータが使用でき、内蔵カードを追加したり、ハードディスクのソフトウエアを入れ替えて様々な目的にアレンジできるので、姿勢制御やロボットアーム制御等の特殊機能をもカバーできる設計にしています。 また、統合コンピュータではない実験用コンピュータのような分散コンピュータもソフトウエアを入れ替えて予備として使用できるので、役割の異なるコンピュータも、各々がバックアップを3重、4重にとれる利点があります。
  (2)スペースシャトルの安全設計の例
生命線を担う制御監視装置の安全・信頼性確保の思想は、スペースシャトルの飛行制御コンピュータにも採用されています。シャトルが軌道に入るまでの上昇飛行のすべての自動制御と、いったん着陸したい場所を決めるボタンを押したら、それ以降大気圏の深いところまで降りてゆく飛行の自動制御を受け持つものです。飛行中は、そのコンピュータシステムは、積荷の制御、宇宙飛行士へのデータ情報の表示、地上との情報交換に使います。飛行の安全には、コンピュータのハードウエアとソフトウエアの手の込んだシステムの正確さが要求されるのはいうまでもありません。 このハードウエアの信頼性は、4つの独立したコンピュータによって確保されています。 センサーも多重にしてあり、通常はおなじものを4つそろえ、4つのコンピュータ系の全系統にデータを流します。もし、センサーからの入力が違っていたら、1つの平均値を出すか、あるいは、多数決で1つの入力を選び、それを有効な入力として使います。 これが、安全性・信頼性を高める有人宇宙船の故障許容の設計思想で40年に以上に亘るNASAの経験に基づくノウハウです。

■故障の原因
 さて、故障発生後、直ちにNASAの技術部門と開発メーカーのエンジニアで構成された独立評価チームがジョンソン宇宙センターに招集され、5日間に亘る原因究明と処置について昼夜を問わない故障解析と地上での再現試験、地上からの指令により故障したコンピュータを使用した試験が行われました。 そして徹底調査した結果報告書を提出。次の原因が推定され、改善勧告をだしました。

・原因(1)
 統括コンピュータ#1は、一時的に作業の負荷により処理のピークを超えたのでソフトウエア機能が停止した。 しかし、ソフトウエアのリブートをむりに行わせる指令(電源のオン・オフ)を何回も地上から行ったため、内臓された磁気ディスクの不具合が発生。このディスクは、電源オンしてから30秒以上経て、電源オフしなければ、磁気ヘッドが所定の位置にもどらないため、地上からの指令でオフオンを即時に行うとヘッドがディスク表面を擦ってしまうため、傷がついてメモリーを破損した。 つまり、オペラーション・エラー。

・原因(2)
 統括コンピュータ#2と#3も、#1と同じソフトウエアとハードウエアの構成であったが、処理のピークを超えていたので相次いでソフトウエア機能が停止した。 停止したコンピュータを再起動するため電源をオフした。このときは、ハードディスクは、#1と異なり物理的にはなく論理的に破壊されたが、しかし、リカバリーソフトウエアで復旧した。 原因は、コンピュータの処理負荷の見積もりが実際にはそれ以上であったためで、運用負荷の見積もりミスであった。 このため、ソフトウエアの処理の負荷軽減を恒久処置としてその後実施、検証した後地上よりソフトウエアを宇宙船に伝送し、正常な状態に戻りました。
ページトップに戻る