ユーズケース

  1. Panasas
    PanFS(DirectFLOWTM)を16台のIntel®Xeon®プロセッサ搭載、AMD®AthlonTMプロセッサ混在環境でテストを実施。PanFS参照
  2. NexentaStorTM
    に複数クライアントから dd I/Oテスト実施。これは今後の詳細レポートを待って掲載予定。
  3. openfiler v2.3
    (ワイズ®製flex filerTM)に10GbE NICを拡張したボンディング環境へマルチアクセス負荷テストを実施した。このレポートには重要な課題が含まれているので別途レポートしたいと思う。
  4. Versatile SMP Foudation
    vSMP Foudationのテストを開始した。versatileとは"汎用的な"の意味を持っているのでメニーコアのSMPシステムでも容易に操作が可能ですよ。と言う意味なのかもしれない。
    TopページのHeadlinesにドキュメントを掲載
Bench Mark
ベンチマーク: HPL

■ ClearSpeed e710

アクセラレータ拡張ボードをIntel® Xeon® プロセッサ+Linux kernel ver 2.6.18のCentOSでDGEMMのLimpakの計測結果を列挙。

複数のClearSpeed®Advanced e710TMを4組同一ボードに搭載し、アクセラレーションをテストしたが各PCIeバス経由でのJobスケジューリングにMPIを使用し、Limpak計測のテストも実施したがSDKのスケジューラ開発が必要となるため一時検証作業を中断した。

途中までのテスト結果からメモリの搭載容量によって、リニアにLimpak計測数値は上昇する事が判明したがIntel®Xeon®7400シリーズのマルチコアプロセッサを4基実装した環境でも70GFLOPSを超える数値は記録する事が出来なかった。(テスト時Memory:128GB搭載)

今後は別途各種のbenchmarkレポートを掲載していく。

■ InfiniBandTM QDR(40Gb/sec)採用 vSMP Foundation ノード

Nehalem-EPプロセッサNode、2台でInfiniBand接続の計測値:MVAPICH PerformanceTest

  • ハードウェアスペック
    • CPU Intel Xeon 2.27GHz 2way 4core 2node(16core)
    • Mem DDR3 RegsteredECC 4GB 24GB 2node(48GB)
    • HDD SerialATA 2TB
    • QDR Mellanox infiniBand(Single)
      versatileSMPへリンク
  • Compiler, library
    • コンパイラ Intel C++ ver11.1(E)
    • library Intel MKL
    • HPL ver2.0
    • MPI mvapich_xxx-1.1.0(OFED)
  • Bandwidth Test Performance(OSU MVAPICH Performance Test)
    • ノード間のバンド幅を測定したグラフ
      Infiniband QDR
   ・HPL (インターコネクト:InfiniBand QDR) Performance
       60000行:ブロックサイズ512kの計算で約136GFLOPSを記録
===========================================================================
HPLinpack 2.0 -- High-Performance Linpack benchmark -- September 10, 2008
Written by A. Petitet and R. Clint Whaley, Innovative Computing Laboratory,
UTK Modified by Piotr Luszczek, Innovative Computing Laboratory, UTK
Modified by Julien Langou, University of Colorado Denver
===========================================================================

An explanation of the input/output parameters follows:
T/V    : Wall time / encoded variant.
N      : The order of the coefficient matrix A.
NB     : The partitioning blocking factor.
P      : The number of process rows.
Q      : The number of process columns.
Time   : Time in seconds to solve the linear system.
Gflops : Rate of execution for solving the linear system.

The following parameter values will be used:

N      :   60000
NB     :     512
PMAP   : Row-major process mapping
P      :       1
Q      :       2
PFACT  :    Left     Left     Left
NBMIN  :       2        4
NDIV   :       2
RFACT  :    Left    Crout    Right
BCAST  :   1ring
DEPTH  :       0
SWAP   : Mix (threshold = 64)
L1     : transposed form
U      : transposed form
EQUIL  : yes
ALIGN  : 8 double precision words

---------------------------------------------------------------------------
- The matrix A is randomly generated for each test.
- The following scaled residual check will be computed:
     ||Ax-b||_oo / ( eps * ( || x ||_oo * || A ||_oo + || b ||_oo )  * N )
- The relative machine precision (eps) is taken to be          2.220446e-16
- Computational tests pass if scaled residuals are less  than          16.0
===========================================================================
T/V                N    NB     P     Q              Time            Gflops
---------------------------------------------------------------------------
WR00L2L2       60000   512     1     2           1059.95          1.359e+02
---------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)=   0.0021651 ...... PASSED
===========================================================================
        

参考数値(gcc N30000 NB256)
同じ条件のサイズでIntelコンパイラーと比較した場合、約15%数値が劣る
===========================================================================
T/V                N    NB     P     Q              Time            Gflops
---------------------------------------------------------------------------
WR00L2L2       30000   256     1     2            163.76          1.099e+02
---------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)=   0.0041415 ...... PASSED

参考数値(C++ N30000 NB256)
===========================================================================
T/V                N    NB     P     Q              Time             Gflops
---------------------------------------------------------------------------
WR00L2L2       30000   256     1     2             139.04         1.295e+02
---------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)=   0.0021471 ...... PASSED

この製品のハードウェアコストは、約100万円程度、昨年の同時期・同スペックの製品を導入するためには200万円以上必要であった事を考えると50%のコストダウン、更に消費電力は約40%の削減となる。メモリアクセスを多用する計算環境や大量のメモリを使用したいユーザーには最大で288GBのメモリ環境を提供することが可能です。
以上の数値からも判断できるように、今年度後半から計算資源のリプレースは例年になくグリーンコンピューティングを推し進めることになるようです。