2012年2月3日金曜日

世界一のスパコン「京」のすごさ その3

「京」の故障率の低さ、その秘密は、高発熱体であるCPUと通信用LSI部分を直接冷却水(純水)で冷やすようにしたシステムボードの開発である。
http://www.aics.riken.jp/img/k/system01.jpg
CPUの上に銅製のボビンを被せ、ここに冷却水を流すのだ。
そのことによって、CPU自身の温度を30℃以下に保つ。
CPU温度を30℃以下に保つことにより、高負荷・高発熱・高温による破損や計算エラーを防ぐわけである。

近年、コンピュータの高発熱化、高集積化のために、水冷システムが多く採用されてきている。
例えば東工大TUBAME2もそうである。
と言ってもそのほぼ全ては、ラック水冷である。
コンピュータを収容するラック自身に熱交換器を設け、ラック内で空気を循環させ冷やす。
なので、ラック内は空冷のままなのであるので、CPUの温度も高くなってしまう。
「京」のように、CPUを直接冷却水で冷やす、というアイデアはなかなかに大胆で優れたものだと思う。

半導体の寿命はジャンクション温度によって決まる。
ジャンクションとはLSIに集積される素子をつなぐ「つなぎ目」である。
この部分が電気抵抗となり、発熱し温度を上げる。
通常のコンピュータは空気により冷却される。
空冷の場合、高発熱体であるCPUの温度は80℃以上にもなってしまうのだ。

高温により半導体は熱劣化する。
物理化学の教科書に載っているアレニウスの法則によると、温度が10℃上昇すると化学反応の速度は2倍になる。
熱劣化もある種の化学反応である。
すなわち、温度が10℃上昇すれば、熱劣化速度は2倍、つまり寿命は1/2になってしまうということである。
「京」はCPUを直接冷却水で冷やすことにより、ジャンクション温度が上昇するのを防ぎ、故障を減らし寿命も伸ばしているのだ。

空冷システムのCPU温度を80℃、「京」のCPU温度を30℃とすると、その温度差は50℃である。
アレニウスの法則を適用すれば、空冷システムに比べ水冷システムでのCPUの寿命は2^5=32倍にもなる計算だ。
「京」のMTBFについてはまだ統計的データを得られていないが、長時間に及ぶ大規模計算でも十分な実力を発揮できる確証を得た。

1枚のシステムボードには4個のCPUと4個の通信用LSIが乗せられているが、発熱密度の低いメモリ部分は空気による冷却としている。システムボードは24枚計算機筐体に乗せられ、冷却水パイプと接続されている。

0 件のコメント: