■ ClearSpeed e710
アクセラレータ拡張ボードをIntel® Xeon® プロセッサ+Linux kernel ver 2.6.18のCentOSでDGEMMのLimpakの計測結果を列挙。
複数のClearSpeed®Advanced e710TMを4組同一ボードに搭載し、アクセラレーションをテストしたが各PCIeバス経由でのJobスケジューリングにMPIを使用し、Limpak計測のテストも実施したがSDKのスケジューラ開発が必要となるため一時検証作業を中断した。
途中までのテスト結果からメモリの搭載容量によって、リニアにLimpak計測数値は上昇する事が判明したがIntel®Xeon®7400シリーズのマルチコアプロセッサを4基実装した環境でも70GFLOPSを超える数値は記録する事が出来なかった。(テスト時Memory:128GB搭載)
今後は別途各種のbenchmarkレポートを掲載していく。
■ InfiniBandTM QDR(40Gb/sec)採用 vSMP Foundation ノード
Nehalem-EPプロセッサNode、2台でInfiniBand接続の計測値:MVAPICH PerformanceTest
- ハードウェアスペック
- CPU Intel Xeon 2.27GHz 2way 4core 2node(16core)
- Mem DDR3 RegsteredECC 4GB 24GB 2node(48GB)
- HDD SerialATA 2TB
- QDR Mellanox infiniBand(Single)

- Compiler, library
- コンパイラ Intel C++ ver11.1(E)
- library Intel MKL
- HPL ver2.0
- MPI mvapich_xxx-1.1.0(OFED)
- Bandwidth Test Performance(OSU MVAPICH Performance Test)
- ノード間のバンド幅を測定したグラフ

・HPL
(インターコネクト:InfiniBand QDR) Performance
60000行:ブロックサイズ512kの計算で約136GFLOPSを記録
===========================================================================
HPLinpack 2.0 -- High-Performance Linpack benchmark -- September 10, 2008
Written by A. Petitet and R. Clint Whaley, Innovative Computing Laboratory,
UTK Modified by Piotr Luszczek, Innovative Computing Laboratory, UTK
Modified by Julien Langou, University of Colorado Denver
===========================================================================
An explanation of the input/output parameters follows:
T/V : Wall time / encoded variant.
N : The order of the coefficient matrix A.
NB : The partitioning blocking factor.
P : The number of process rows.
Q : The number of process columns.
Time : Time in seconds to solve the linear system.
Gflops : Rate of execution for solving the linear system.
The following parameter values will be used:
N : 60000
NB : 512
PMAP : Row-major process mapping
P : 1
Q : 2
PFACT : Left Left Left
NBMIN : 2 4
NDIV : 2
RFACT : Left Crout Right
BCAST : 1ring
DEPTH : 0
SWAP : Mix (threshold = 64)
L1 : transposed form
U : transposed form
EQUIL : yes
ALIGN : 8 double precision words
---------------------------------------------------------------------------
- The matrix A is randomly generated for each test.
- The following scaled residual check will be computed:
||Ax-b||_oo / ( eps * ( || x ||_oo * || A ||_oo + || b ||_oo ) * N )
- The relative machine precision (eps) is taken to be 2.220446e-16
- Computational tests pass if scaled residuals are less than 16.0
===========================================================================
T/V N NB P Q Time Gflops
---------------------------------------------------------------------------
WR00L2L2 60000 512 1 2 1059.95 1.359e+02
---------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)= 0.0021651 ...... PASSED
===========================================================================
参考数値(gcc N30000 NB256)
同じ条件のサイズでIntelコンパイラーと比較した場合、約15%数値が劣る
===========================================================================
T/V N NB P Q Time Gflops
---------------------------------------------------------------------------
WR00L2L2 30000 256 1 2 163.76 1.099e+02
---------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)= 0.0041415 ...... PASSED
参考数値(C++ N30000 NB256)
===========================================================================
T/V N NB P Q Time Gflops
---------------------------------------------------------------------------
WR00L2L2 30000 256 1 2 139.04 1.295e+02
---------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)= 0.0021471 ...... PASSED
この製品のハードウェアコストは、約100万円程度、昨年の同時期・同スペックの製品を導入するためには200万円以上必要であった事を考えると50%のコストダウン、更に消費電力は約40%の削減となる。メモリアクセスを多用する計算環境や大量のメモリを使用したいユーザーには最大で288GBのメモリ環境を提供することが可能です。
以上の数値からも判断できるように、今年度後半から計算資源のリプレースは例年になくグリーンコンピューティングを推し進めることになるようです。
|