スパコン電気は食うわ、「熱」は出すわ、「体調」は崩すわ…総勢30人「京」の“お世話係”の苦闘と誇り

http://www.sankei.com/smp/west/news/171204/wst1712040004-s1.html

 私たちの仕事は、世界トップクラスの性能を持つスーパーコンピューター「京(けい)」の、いわばお世話係といえるかもしれない。

 ここ理化学研究所計算科学研究機構では、「京」が消費する大量の電力を安定的に供給したり、「京」から出る膨大な熱を効率的に冷やしたり、「京」にさまざまなソフトウエアを入れて利用しやすい環境を整えたり、「京」に投入される大量のジョブがスムーズに処理されるよう調整したりする仕事に、総勢30人を超えるスタッフが日々取り組んでいる。

 「京」は8万2944台ものコンピューターの集合体である。その規模の大きさと複雑さから、通常のコンピューターでは想定できないことが起き、それが大規模な障害につながることが少なくない。システム全体が停止するようなトラブルが起きた時は、一刻も早く復旧させるために迅速に原因を特定し、効果的な対策を取らなければならない。

 しかし実際には、限られた時間の中で得られる情報は多くなく、原因の特定にまで至らない状況下で決断を迫られることが多い。責任者としてはプレッシャーがかかるシーンだが、そのおかげで決断力が随分と磨かれた気もする。

 障害の発生を完全に抑えることは難しく、原因が特定できても問題を根治させるには膨大な時間と手間がかかるケースも多い。そこで私たちは現実的な対応として、障害の影響を運用の工夫で回避する方法を探すことにも力を入れた。その結果、共用開始してから急増していたトラブルによる停止時間は平成26年度以降減少に転じ、今年度1月末時点で26年度同期の3分の1以下に激減させることに成功している。

 一般的にスパコンの寿命は5、6年とされる。技術の進歩が速いため、そのくらいのペースで入れ替えていかないと陳腐化してしまうからだ。「京」は正式な共用開始から4年半、試験的な運用も含めるとすでにほぼ6年が経過しているが、HPCGとGraph500という2つの著名なベンチマーク(性能を測るためのプログラム)の最新ランキングで世界一である。陳腐化どころか今も現役バリバリで働き盛りな「京」は、私たちの大きな誇りである。

 その能力をすべての利用者の方々に余すところなく使ってもらえるように、私たちは今日も「京」のお世話にいそしむ。いつか「京」がその役目を終えるその時まで。



 庄司文由(しょうじ・ふみよし) 理研計算科学研究機構(AICS)運用技術部門長。平成10年、金沢大学大学院自然科学研究科単位取得退学。博士(理学)。広島大学理研次世代スパコン開発実施本部を経て、26年から現職。「京」および「京」の稼働を支える施設の運用と高度化に従事している。

http://www.sankei.com/images/news/171204/wst1712040004-p1.jpg