高速化チューニングとその関連技術2
作者: 吉見一慶
â
最終変更
2014年07月29日 14時36分
2013年前期に行われたCMSI計算科学技術特論Aの講義「第9回 高速化チューニングとその関連技術2」をもとに、計算機の仕組み、プロファイラの使い方、メモリアクセス最適、CPUチューニング及び並列化に関して解説しています。
(注) ビデオ画像の開始位置は、回線状況によりずれが生じる可能性があります。その場合は再読み込みを行ってください。
1. 計算機の仕組み
- 計算機の仕組みと高速化 ( P.3, ビデオ画像 )
- プログラム階層 ( P.4, ビデオ画像 )
- 記憶階層 ( P.5, ビデオ画像 )
- Byte/Flop ( P.6, ビデオ画像 )
- 仮想メモリとページング ( P.7, ビデオ画像 )
- NUMA ( P.9, ビデオ画像 )
- CPUアーキテクチャ ( P.11, ビデオ画像 )
- レイテンシとパイプライン ( P.13, ビデオ画像 )
- 積和(差)命令 fmaddd,fmsubd ( P.16, ビデオ画像 )
- SIMD ( P.17, ビデオ画像 )
- パイプラインのイメージ ( P18, ビデオ画像 )
- 計算機の仕組みのまとめ ( P.19, ビデオ画像 )
2. プロファイラの使い方
- プログラムのホットスポット ( P.21, ビデオ画像 )
- プロファイラ ( P.22, ビデオ画像 )
- プロファイラ(Sampler型) ( P.23, ビデオ画像 )
- gprof ( P.24, ビデオ画像 )
- 結果の解釈(Sampler型) ( P.25, ビデオ画像 )
- プロファイラ(イベント取得型) ( P.26, ビデオ画像 )
- Profile結果の解釈(HW Counter) ( P.27, ビデオ画像 )
3. メモリアクセス最適化
- メモリ最適化1 セル情報の一次元実装 ( P.30, ビデオ画像 )
- メモリ最適化2 相互作用ペアソート ( P.32, ビデオ画像 )
- メモリ最適化3 空間ソート/作用反作用 ( P.34, ビデオ画像 )
- メモリ最適化まとめ ( P.38, ビデオ画像 )
4. CPUチューニング
- CPUチューニング ( P.40, ビデオ画像 )
- 条件分岐コスト ( P.41, ビデオ画像 )
- 条件分岐削除 (Fortran言語) ( P.43, ビデオ画像 )
- SIMD化 ( P.45, ビデオ画像 )
- CPUチューニングまとめ ( P.49, ビデオ画像 )