汎用的に使用可能なSMPプロダクトとして開発/検証を進めている米国のScaleMP社が開発したvSMP Foundationがあります。(現在はCloud用途、Cluster用途にソリューションが増えていました)n NodeのSMPマシンを仮想的に一台にして管理を簡素化すると言う物です。簡素化と表現しましたが、具体的にはOSが一つで良い事とnode間のインターコネクトの制御を殆ど考慮しなくて良い、(MPIなどは必要)または大容量のメモリー空間(4テラバイト)を使用できると言うこと、スレッドが128個使用できることなどです。
性能面でどんなメリットがあるのか公開されているデータを元にご覧になった方々が夫々使用する環境を創造して頂ければ幸いです。
STREAM "Top20" リザルト
データ参照サイト:http://www.streambench.org/
STREAM Memory Bandwidth --- John D. McCalpin, mccalpin@cs.virginia.edu
Revised to Mon Aug 10 08:51:28 CDT 2009
All results are in MB/s --- 1 MB=10^6 B, *not* 2^20 B
-----------------------------------------------------------------------------
Machine ID ncpus COPY SCALE ADD TRIAD
-----------------------------------------------------------------------------
SGI_Altix_4700 1024 3661963.0 3677482.0 4385585.0 4350166.0
SGI_Altix_3700_Bx2 512 906388.0 870211.0 1055179.0 1119913.0
SGI_Altix_3000 512 854062.0 854338.0 1008594.0 1007828.0
NEC_SX-7 32 876174.7 865144.1 869179.2 872259.1
IBM_Power_595 64 679207.2 624707.8 777334.8 805804.6
NEC_SX-5-16A 16 607492.0 590390.0 607412.0 583069.0
ScaleMP_XeonX5570_vSMP_16B 128 437571.0 431726.0 442722.0 445869.0
NEC_SX-4 32 434784.0 432886.0 437358.0 436954.0
HP_AlphaServer_GS1280-1300 64 407351.0 400142.0 437010.0 431450.0
Cray_T932_321024-3E 32 310721.0 302182.0 359841.0 359270.0
ScaleMP_XeonX5570_vSMP_8B 64 276040.0 267553.0 268462.0 268722.0
Fujitsu/Sun_Enterprise_M9000 128 224401.0 223113.0 224271.0 227059.0
NEC_SX-6 8 202627.2 192306.2 190231.3 213024.3
IBM_System_p5_595 64 186137.0 179639.0 200410.0 206243.0
HP_Integrity_SuperDome_dc 128 154504.0 152999.0 169468.0 170833.0
IBM_Power_575 32 142708.2 142612.4 159010.7 162844.0
Cray_C90 16 105497.0 104656.0 101736.0 103812.0
IBM_System_p5-575 8 77901.0 81228.0 96726.0 100523.0
SGI_Origin3800-500 256 87019.5 85514.4 101695.6 99680.2
Azul_Vega2_7280 768 83968.4 83223.6 90757.1 91394.2
YIS_XeonX5520_IB_QDR 8 24332.4 30566.5 30324.8 31413.1
YIS_XeonX5520_vSMP_2B 16 58888.6 57392.8 61544.4 61655.6
-----------------------------------------------------------------------------
「versatile SMP Foundation」搭載システムは7行目、11行目のScaleMP_xxxx表記のシステムです。CPU、メモリ間のバンド幅のスループットが夫々445GB/sec, 268GB/secを示しており、同コア数(128)で比較した場合、HP社のSuperDome_DCの2.6倍、64コアではIBM p5_595に勝っているようです。
しかし、ベンダーの違いには搭載CPUのコア数にも差異があり単純な比較は危険です。バンド幅の比較として見ることでこそ本来の意義が有ると思えます。
再下段にはvSMPを搭載する以前のXeonサーバー1台で計測した数値を参考掲載しました。
ワイズではこのシステムにInfiniBand接続の 2 nodeモデルでversatile SMP Foundation を搭載し、Streambenchmark で16core 60GB/sec、HPL Benchmark では136GFLOPSの性能を期待しています。当システムにはストレージが最大で8TB実装可能でラックキャビネットの占有サイズはたったの1U(44mm)です。コスト重視のプロセッサを使用したシステムとしては非常に価値がある製品で、出荷開始は8月末の予定です。
※ 再下段にvSMP FoundationのStream Benchmarkを公開。(16並列、Array size 100000000)
Bandwidth Test Performanceリザルト
[@host1 ~]$ /usr/mpi/gcc/mvapich-1.1.0/bin/mpirun_rsh -np 2 -hostfile
/home/comtecs/cluster /usr/mpi/gcc/mvapich-1.1.0/tests
/osu_benchmarks-3.0/osu_bw # OSU MPI Bandwidth Test v3.0
# Size Bandwidth (MB/s)
1 1.31
2 2.65
4 5.36
8 10.66
16 20.70
32 40.18
64 95.57
128 173.41
256 332.47
512 632.10
1024 1051.27
2048 1514.41
4096 1904.84
8192 2098.66
16384 2095.89
32768 2435.43
65536 2802.09
131072 2796.30
262144 3046.53
524288 3053.37
1048576 3051.02
2097152 3080.92
4194304 3084.65
上記数値はチューニングを施さずInstall時の設定のままMellanox社 InfiniBand、mvapich バンド幅のBenchmarkをシミュレーションした数値であり、2node間のQDRスペック値ですが、まずは妥当な数値と言えます。
しかし、実行速度で3Gbpsを超えるバンド幅が確保できたとしてもプログラム修正、ライブラリの種類、メモリ利用など課題は残り使う側の方々のメニーコア環境への対応が必要になります。
他にはopenmpi pgi or openmpi intelを使用したBenchmark も実施しなければいけませんが別の機会に2node以上でファブリックスイッチを介した条件下で結果を公開する予定です。。
|