インテル® マス・カーネル・ライブラリー 11.2 ユーザーズガイド
複数のノード上で Intel® Optimized MP LINPACK Benchmark を実行するには、MPI を使用するとともに、HPL.dat を変更するか、ここで説明する使いやすいコマンドライン・パラメーターを使用する必要があります。
これらの命令は、インテル® 64 アーキテクチャーを仮定していますが、その他のアーキテクチャーにも適用可能です。これらの命令は、前世代のインテル® Core™ プロセッサーまたはそれ以上のインテル® プロセッサーに直接適用されます。IA-32 アーキテクチャー・プロセッサーおよび以前のインテル® 64 アーキテクチャー・プロセッサーの場合は、make コマンドの version パラメーターを省略します。 IA-32 アーキテクチャー・プロセッサーの場合は、ディレクトリー名と arch パラメーター値の調整も行います。
Intel® Optimized MP LINPACK Benchmark を複数のノードに拡張するには、次の操作を行います。
インテル® MKL、インテル® MPI、インテル® コンパイラーに必要な環境変数をロードし、バイナリーをビルドします。
<親製品のディレクトリー>/bin/compilervars.sh intel64
<mpi ディレクトリー>/bin64/mpivars.sh
<mkl ディレクトリー>/bin/mklvars.sh intel64
make arch=intel64 version=offload
ディレクトリーを bin/intel64 に変更します。
cd <mkl ディレクトリー>/benchmarks/mp_linpack/bin/intel64
このディレクトリーには、次のファイルが含まれています。
xhpl - インテル® 64 アーキテクチャー・バイナリー。
HPL.dat - HPL 入力データセット。
HPL.dat ファイルで、問題サイズ N を 10000 に設定します。 これはテスト実行用の設定であるため、問題サイズは小さくてかまいません。
HPL.dat ファイルで、Ps * Qs がノード数と等しくなるように Ps パラメーターと Qs パラメーターを設定します。 例えば、2 ノードの場合、Ps を 1 に設定し、Qs を 2 に設定します。 Ps = Qs の場合、簡単に最適な結果が得られるため、Ps ≤ Qs を満たすできるだけ近い値を選択します。
次に、2 ノードの場合の HPL.dat ファイルを示します。
HPLinpack benchmark input file Innovative Computing Laboratory, University of Tennessee HPL.out output file name (if any) 6 device out (6=stdout,7=stderr,file) 1 # of problems sizes (N) 10000 Ns 1 # of NBs 1280 NBs 1 PMAP process mapping (0=Row-,1=Column-major) 1 # of process grids (P x Q) 1 Ps 2 Qs 16.0 threshold 1 # of panel fact 2 PFACTs (0=left, 1=Crout, 2=Right) 1 # of recursive stopping criterium 4 NBMINs (>= 1) 1 # of panels in recursion 2 NDIVs 1 # of recursive panel fact. 1 RFACTs (0=left, 1=Crout, 2=Right) 1 # of broadcast 0 BCASTs (0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM) 1 # of lookahead depth 1 DEPTHs (>=0) 0 SWAP (0=bin-exch,1=long,2=mix) 1 swapping threshold 1 L1 in (0=transposed,1=no-transposed) form 1 U in (0=transposed,1=no-transposed) form 0 Equilibration (0=no,1=yes) 8 memory alignment in double (> 0) 別の方法として、HPL.dat ファイルを変更せずに、–n、-p、および –q パラメーターを指定して起動します。
次に、4 ノードの場合の HPL.dat ファイルを示します。
HPLinpack benchmark input file Innovative Computing Laboratory, University of Tennessee HPL.out output file name (if any) 6 device out (6=stdout,7=stderr,file) 1 # of problems sizes (N) 10000 Ns 1 # of NBs 1280 NBs 1 PMAP process mapping (0=Row-,1=Column-major) 1 # of process grids (P x Q) 2 Ps 2 Qs 16.0 threshold 1 # of panel fact 2 PFACTs (0=left, 1=Crout, 2=Right) 1 # of recursive stopping criterium 4 NBMINs (>= 1) 1 # of panels in recursion 2 NDIVs 1 # of recursive panel fact. 1 RFACTs (0=left, 1=Crout, 2=Right) 1 # of broadcast 0 BCASTs (0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM) 1 # of lookahead depth 1 DEPTHs (>=0) 0 SWAP (0=bin-exch,1=long,2=mix) 1 swapping threshold 1 L1 in (0=transposed,1=no-transposed) form 1 U in (0=transposed,1=no-transposed) form 0 Equilibration (0=no,1=yes) 8 memory alignment in double (> 0) 別の方法として、HPL.dat ファイルを変更せずに、–n、-p、および –q パラメーターを指定して起動します。
2 つのノード上で MPI 制御の下、xhpl バイナリーを実行します。
mpirun --perhost 1 -n 2 -hosts Node1,Node2 \
-genv MIC_LD_LIBRARY_PATH $MIC_LD_LIBRARY_PATH \
-genv LD_LIBRARY_PATH $LD_LIBRARY_PATH ./xhpl
行列のサイズが利用可能なメモリーの約 80% を使用するようになるまで、問題サイズを徐々に大きくして HPL テストを再度実行します。サイズを変更するには、HPL.dat で Ns の値を変更するか、-m コマンドライン・パラメーターを使用します。
ハイブリッド・オフロード・バイナリーの実行については、「ハイブリッド・オフロード・バイナリーの実行」を参照してください。