Discovery

共同研究先：Toho UniversityAcademic 共同研究数 1

Article　1998 5　Elsevier

A data-localization compilation scheme using partial-static task assignment for Fortran coarse-grain parallel processing（First author）

Fortran粗視化並列処理における部分静的タスク割り当てを用いたデータローカライズコンパイルスキーム

Hironori Kasahara, Akimasa Yoshida
Parallel Computing
【抄録】This paper proposes a compilation scheme for data localization using partial-static task assignment for Fortran coarse-grain parallel processing, or macro-dataflow processing, on a multiprocessor system with local memories and centralized shared memory. The data localization allows us to effectively use local memories and reduce data transfer overhead under dynamic task-scheduling environment. The proposed compilation scheme mainly consists of the following three parts: (1) loop-aligned decomposition, which decomposes each of the loops having data dependence among them into smaller loops, and groups the decomposed loops into data-localizable groups so that shared data among the decomposed loops inside each group can be passed via local memory and data transfer overhead among the groups can be minimum; (2) partial static task assignment, which gives information that the decomposed loops inside each data-localizable group are assigned to the same processor to a dynamic scheduling routine generator in the macro-dataflow compiler; (3) parallel machine code generation, which generates parallel machine code to pass shared data inside the group through local memory and transfer data among groups through centralized shared memory. This compilation scheme has been implemented for a multiprocessor system, OSCAR (Optimally SCheduled Advanced multiprocessoR), having centralized shared memory and distributed shared memory, in addition to local memory on each processor. Performance evaluation of OSCAR shows that macro-dataflow processing with the proposed data-localization scheme can reduce the execution time by 20%, in average, compared with macro-dataflow processing without data localization. © 1998 Elsevier Science B.V. All rights reserved.
【抄録日本語訳】本論文では、ローカルメモリと集中共有メモリを持つマルチプロセッサシステム上のFortran粗視化並列処理（マクロデータフロー処理）に対して、部分静的タスク割り当てを用いたデータローカライズのためのコンパイル方式を提案する。データ局在化により、動的なタスクスケジューリング環境において、ローカルメモリの有効活用とデータ転送のオーバーヘッドを削減することができる。提案するコンパイル方式は、主に以下の3つの部分から構成される。(1) ループアラインド分解：データ依存性を持つループをより小さなループに分解し、分解されたループをデータローカライズ可能なグループにまとめることで、グループ内の分解ループ間の共有データをローカルメモリ経由で渡し、グループ間のデータ転送オーバーヘッドを最小にすることができる。(2)マクロデータフローコンパイラ内の動的スケジューリングルーチン生成器に、データ局在化可能な各グループ内の分解ループが同じプロセッサに割り当てられるという情報を与える部分静的タスク割り当て、(3)グループ内の共有データをローカルメモリ経由で渡し、集中共有メモリ経由でグループ間のデータを転送する並列マシンコードを生成する並列マシンコード生成、がある。このコンパイル方式を、各プロセッサのローカルメモリに加えて集中共有メモリと分散共有メモリを持つマルチプロセッサシステムOSCAR (Optimally SCheduled Advanced multiprocessoR) に対して実装した。OSCARの性能評価により、提案するデータ局在化方式を用いたマクロデータフロー処理では、データ局在化を行わないマクロデータフロー処理と比較して、平均で20%の実行時間の短縮が可能であることが示されました。© 1998 Elsevier Science B.V. All rights reserved.