ユーズケース

オンメモリの計算を多用するシミュレーション、密結合のクラスターシステムを要する構造計算、CAE、CFDなど、様々なケースを想定する場合ビジネスの現場ではオペレーションシステムのライセンスフィー等は大きな負担となります。vSMPは、1Systemのハードウェア上に多数のCPUcoreが集積している状態のIAシステムであり、OSは1ライセンスのみです。これによる年間の保守費用軽減とメリットは非常に大きく、今後はパーソナルなスーパーコンピュータとして128core 4TB Memory 30TB を超えるストレージエリアを手軽なコストで導入可能となり、学術・研究系等のシステムなどで容易に入手可能な唯一のパーソナルシステムと言えます。

推奨するHPCアプリケーション

構造力学
- ABAQUS, ANSYS, LS-DYNA, LSTC etc.

数値流体力学
- FLUENT, ANSYS CFX
- CD-adapco, STAR-CD etc.

レイ-トレーシング - OpenRT 科学計算
- AMBER, NAMD, GAMESS, GOLD
- mpiBLAST, GROMAX, HMMER, DOCK, MOLPRO

予測・シミュレーション・財務・天候
オイル & ガス
- ECLIPSE, 3DGEO, GeoDepth, 3DPSDM
- MATLAB,TOMLAB, MATHEMATICA, ATLAS

vSMP Foundation
vSMP Foundation: 高度仮想化ツール

汎用的に使用可能なSMPプロダクトとして開発/検証を進めている米国のScaleMP社が開発したvSMP Foundationがあります。(現在はCloud用途、Cluster用途にソリューションが増えていました)n NodeのSMPマシンを仮想的に一台にして管理を簡素化すると言う物です。簡素化と表現しましたが、具体的にはOSが一つで良い事とnode間のインターコネクトの制御を殆ど考慮しなくて良い、(MPIなどは必要)または大容量のメモリー空間(4テラバイト)を使用できると言うこと、スレッドが128個使用できることなどです。

性能面でどんなメリットがあるのか公開されているデータを元にご覧になった方々が夫々使用する環境を創造して頂ければ幸いです。

 

STREAM "Top20" リザルト

データ参照サイト:http://www.streambench.org/

STREAM Memory Bandwidth --- John D. McCalpin, mccalpin@cs.virginia.edu
Revised to Mon Aug 10 08:51:28 CDT 2009

All results are in MB/s --- 1 MB=10^6 B, *not* 2^20 B

-----------------------------------------------------------------------------
Machine ID                   ncpus    COPY     SCALE       ADD     TRIAD
-----------------------------------------------------------------------------
SGI_Altix_4700               1024  3661963.0  3677482.0  4385585.0  4350166.0
SGI_Altix_3700_Bx2            512   906388.0   870211.0  1055179.0  1119913.0
SGI_Altix_3000                512   854062.0   854338.0  1008594.0  1007828.0
NEC_SX-7                       32   876174.7   865144.1   869179.2   872259.1
IBM_Power_595                  64   679207.2   624707.8   777334.8   805804.6
NEC_SX-5-16A                   16   607492.0   590390.0   607412.0   583069.0
ScaleMP_XeonX5570_vSMP_16B    128   437571.0   431726.0   442722.0   445869.0
NEC_SX-4                       32   434784.0   432886.0   437358.0   436954.0
HP_AlphaServer_GS1280-1300     64   407351.0   400142.0   437010.0   431450.0
Cray_T932_321024-3E            32   310721.0   302182.0   359841.0   359270.0
ScaleMP_XeonX5570_vSMP_8B      64   276040.0   267553.0   268462.0   268722.0
Fujitsu/Sun_Enterprise_M9000  128   224401.0   223113.0   224271.0   227059.0
NEC_SX-6                        8   202627.2   192306.2   190231.3   213024.3
IBM_System_p5_595              64   186137.0   179639.0   200410.0   206243.0
HP_Integrity_SuperDome_dc     128   154504.0   152999.0   169468.0   170833.0
IBM_Power_575                  32   142708.2   142612.4   159010.7   162844.0
Cray_C90                       16   105497.0   104656.0   101736.0   103812.0
IBM_System_p5-575               8    77901.0    81228.0    96726.0   100523.0
SGI_Origin3800-500            256    87019.5    85514.4   101695.6    99680.2
Azul_Vega2_7280               768    83968.4    83223.6    90757.1    91394.2


YIS_XeonX5520_IB_QDR            8    24332.4    30566.5    30324.8    31413.1
YIS_XeonX5520_vSMP_2B          16    58888.6    57392.8    61544.4    61655.6
-----------------------------------------------------------------------------

「versatile SMP Foundation」搭載システムは7行目、11行目のScaleMP_xxxx表記のシステムです。CPU、メモリ間のバンド幅のスループットが夫々445GB/sec, 268GB/secを示しており、同コア数(128)で比較した場合、HP社のSuperDome_DCの2.6倍、64コアではIBM p5_595に勝っているようです。
しかし、ベンダーの違いには搭載CPUのコア数にも差異があり単純な比較は危険です。バンド幅の比較として見ることでこそ本来の意義が有ると思えます。
再下段にはvSMPを搭載する以前のXeonサーバー1台で計測した数値を参考掲載しました。

ワイズではこのシステムにInfiniBand接続の 2 nodeモデルでversatile SMP Foundation を搭載し、Streambenchmark で16core 60GB/sec、HPL Benchmark では136GFLOPSの性能を期待しています。当システムにはストレージが最大で8TB実装可能でラックキャビネットの占有サイズはたったの1U(44mm)です。コスト重視のプロセッサを使用したシステムとしては非常に価値がある製品で、出荷開始は8月末の予定です。

TwinServer

※ 再下段にvSMP FoundationのStream Benchmarkを公開。(16並列、Array size 100000000)

 

Bandwidth Test Performanceリザルト

[@host1 ~]$ /usr/mpi/gcc/mvapich-1.1.0/bin/mpirun_rsh -np 2 -hostfile
/home/comtecs/cluster /usr/mpi/gcc/mvapich-1.1.0/tests
/osu_benchmarks-3.0/osu_bw # OSU MPI Bandwidth Test v3.0 # Size Bandwidth (MB/s) 1 1.31 2 2.65 4 5.36 8 10.66 16 20.70 32 40.18 64 95.57 128 173.41 256 332.47 512 632.10 1024 1051.27 2048 1514.41 4096 1904.84 8192 2098.66 16384 2095.89 32768 2435.43 65536 2802.09 131072 2796.30 262144 3046.53 524288 3053.37 1048576 3051.02 2097152 3080.92 4194304 3084.65

上記数値はチューニングを施さずInstall時の設定のままMellanox社 InfiniBand、mvapich バンド幅のBenchmarkをシミュレーションした数値であり、2node間のQDRスペック値ですが、まずは妥当な数値と言えます。
しかし、実行速度で3Gbpsを超えるバンド幅が確保できたとしてもプログラム修正、ライブラリの種類、メモリ利用など課題は残り使う側の方々のメニーコア環境への対応が必要になります。

他にはopenmpi pgi or openmpi intelを使用したBenchmark も実施しなければいけませんが別の機会に2node以上でファブリックスイッチを介した条件下で結果を公開する予定です。。