并行与分布式计算导论——作业三

博主： Rainshaw
发布时间：2019 年 05 月 05 日
1876 次浏览
暂无评论
5934字数
分类：并行与分布式计算导论 C++

并行与分布式计算导论第三次作业

Based on markdown 推荐使用markdown阅读器阅读，或访问并行与分布式计算导论——作业三

作业要求

完成以下MPI程序，提交作业报告，并在报告的最后附源码，格式为PDF。
“大”和“小”
求素数（这题ref程序有问题，不要求对比，可以自己写一个串行的函数验证正确性）
（求pi的那题出了点问题，换成大和小，视图的概念如附件所示）
报告的内容可以包括：
1.并行的核心代码或核心思想；
2.与参考串行/并行程序相比较，或使用不同的线程数量比较输出结果并简单分析；
3.使用MPI的心得或遇到的困难。

"大"和"小"

临湖草堂数据对比

问题规模N	线程数	加速比	线程数	加速比	线程数	加速比
$10$	1	0.569	2	0.209	4	0.044
$12$	1	0.691	2	0.937	4	1.269
$14$	1	1.035	2	1.406	4	3.180

从上表中可以看出，当问题规模上升，并且线程数上升时，并行计算的时间大幅降低。

林湖草堂输出示例

http://linhucaotang.com/submission/33993

array-size = 2^14

**************stdout from your impl.****************
k2
bufLen:32768, 32768 0 
k2
bufLen:32768, 32768 1 
k2
bufLen:32768, 32768 2 
k5
bufLen:81920, 81920 3 

===================================================================================
=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES
=   PID 121570 RUNNING AT ailab-fx2-server-02
=   EXIT CODE: 134
=   CLEANING UP REMAINING PROCESSES
=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES
===================================================================================
YOUR APPLICATION TERMINATED WITH THE EXIT STRING: Aborted (signal 6)
This typically refers to a problem with your application.
Please see the FAQ page for debugging suggestions

******************result evaluation*****************
congratulations! the anwser is correct.

***************performance evaluation***************
reference serial impl.  : time_cost=8.2295e-05
reference parallel impl.: time_cost=2.3413e-04 speedup=0.351   
your impl.              : time_cost=1.9550e-05 speedup=4.209

本题难点

本题主要是题目的输入输出有明确规定，正确理解题意需要下一番功夫
程序中基本上都是以字节数计数的，需要注意
当线程数非2的幂次时，程序无法均分，需要特殊处理

源代码

#include <stdio.h>
#include <stdlib.h>
#include <mpi.h>
#include <math.h>
#include "fio.h"

//extern struct FILE_SEG {
//
//    int64_t offset;
//
//    int64_t width;
//
//    int64_t stride;
//
//};


typedef unsigned char byte;

extern int64_t input_data(void *buf, int64_t count, FILE_SEG fseg);

extern int64_t output_data(void *buf, int64_t count, FILE_SEG fseg);


int main(int argc, char **argv) {

    int N = atoi(argv[1]);
    int num = pow(2, N);

    MPI_Init(NULL, NULL);
    int rank;
    int world;

    MPI_Comm_rank(MPI_COMM_WORLD, &rank);
    MPI_Comm_size(MPI_COMM_WORLD, &world);

    int size = num / 2 / world;

    FILE_SEG fseg;
    fseg.offset = size * rank * sizeof(int64_t);
    fseg.width = size * sizeof(int64_t);
    fseg.stride = sizeof(int64_t) * (num - size * (2 * rank + 1));
    if(rank==world-1) {
        fseg.width = (num / 2 - size * rank) * sizeof(int64_t);
        fseg.stride=fseg.width;
    }

    int64_t length = sizeof(int64_t) * num;
    int64_t k = 0;
    while (k * fseg.stride + fseg.offset < length)
        k++;
    printf("k%lld\n",k);
    int64_t bufLen = k * fseg.width;
    byte *data = new byte[bufLen];
    int64_t x = input_data(data, bufLen, fseg);
    printf("bufLen:%lld, %lld %d \n", bufLen, x, rank);

    int wid=fseg.width/ sizeof(int64_t);
    for (int i = 0; i < wid; i++) {
        if(((int64_t *) data)[i]>((int64_t *) data)[2*wid-1-i]){
            //printf("%lld,%lld,",((int64_t *) data)[i],((int64_t *) data)[2*wid-1-i]);
            int64_t tmp =((int64_t *) data)[i];
            ((int64_t *) data)[i]=((int64_t *) data)[2*wid-1-i];
            ((int64_t *) data)[2*wid-i-1]=tmp;
        }
    }
    //MPI_Barrier(MPI_COMM_WORLD);
    //printf("\n");

    output_data(data,2*fseg.width,fseg);

    printf("Hello: rank %d, world: %d\n", rank, world);

    MPI_Finalize();

    return 0;
}

求素数

结果比较(本机8代标压酷睿i7-6核心)

问题规模	线程数	时间(ms)	线程数	时间(ms)	线程数	时间(ms)	线程数	时间(ms)
$8$	1	86	2	91	4	105	6	119
$12$	1	91	2	96	4	103	6	118
$15$	1	91	2	99	4	110	6	127
$18$	1	161	2	154	4	166	6	189

从表中可以看出，并行算法并没有加速，这是由于MPI传递信息的时间占比较大，并行加速不明显，另外，从下面部分也可以看出，在本地并非几线程就将CPU满载至百分之几百，这也是时间不准的原因之一。

本地示例输出

# rainshaw @ gaoruixodeMBP15 in ~/Desktop/Code/CLionProjects/Parallel&DistributedProgramming/homework3/findPrime/cmake-build-debug [3:14:49] 
$ time mpirun -np 6 findPrime 18
mpirun -np 6 findPrime 18  0.35s user 0.13s system 254% cpu 0.189 total

# rainshaw @ gaoruixodeMBP15 in ~/Desktop/Code/CLionProjects/Parallel&DistributedProgramming/homework3/findPrime/cmake-build-debug [3:15:04] 
$ time mpirun -np 4 findPrime 18
mpirun -np 4 findPrime 18  0.25s user 0.08s system 199% cpu 0.166 total

# rainshaw @ gaoruixodeMBP15 in ~/Desktop/Code/CLionProjects/Parallel&DistributedProgramming/homework3/findPrime/cmake-build-debug [3:15:14] 
$ time mpirun -np 2 findPrime 18
mpirun -np 2 findPrime 18  0.17s user 0.05s system 141% cpu 0.154 total

# rainshaw @ gaoruixodeMBP15 in ~/Desktop/Code/CLionProjects/Parallel&DistributedProgramming/homework3/findPrime/cmake-build-debug [3:15:31] 
$ time mpirun -np 1 findPrime 18
mpirun -np 1 findPrime 18  0.13s user 0.03s system 97% cpu 0.161 total

源码

#include <stdio.h>
#include <stdlib.h>
#include <mpi.h>
#include <math.h>

int isPrime(int n) {
    int flag = 1;
    if (n == 1 || n == 2)
        return 0;
    for (int m = 2; m <= sqrt(n * 1.0); m++) {
        if (n % m == 0) {
            flag = 0;
            break;
        }
    }
    return flag;
}

int main(int argc, char **argv) {

    int k = atoi(argv[1]);
    FILE *fp;


    MPI_Init(NULL, NULL);
    int rank;
    int world;

    int prime[(int) pow(2, 20)];
    prime[0] = 0;
    prime[1] = 0;

    MPI_Comm_rank(MPI_COMM_WORLD, &rank);
    MPI_Comm_size(MPI_COMM_WORLD, &world);

    int size = (int) pow(2, k) / world + 1;

    for (int i = 1; i <= size && rank * size + i <= (int) pow(2, k); i++) {
        prime[rank * size + i] = isPrime(rank * size + i);
    }

    //printf("Hello: rank %d, world: %d, from %d to %d\n",rank, world, rank*size+1, rank*size+size);

    if (rank != 0) {
        MPI_Send(prime, (int) pow(2, k), MPI_INT, 0, 0, MPI_COMM_WORLD);
        //printf("%d\n",rank);
    } else {
        for (int source = 1; source < world; source++) {
            int buffer[(int) pow(2, k)];
            MPI_Recv(buffer, (int) pow(2, k), MPI_INT, source, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
            //printf("0 %d\n",source);
            for (int i = 0; i < (int) pow(2, k); i++)
                prime[i] = (prime[i] || buffer[i]);
        }

    }

    if (rank == 0) {
        //fp = fopen("ref.out", "w");
//        for(int i=1;i<pow(2,k);i++)
//            if(prime[i]) {
//                printf("%d\n", i);
//                //fwrite(&i, 64, 1, fp);
//            }
        for (int i = 2; i < pow(2, k); i++)
            if (prime[i] != isPrime(i))
                printf("False check at %d\n", i);
    }

    MPI_Finalize();


    return 0;
}

最后修改：2021 年 03 月 13 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

并行与分布式计算导论——作业三

Rainshaw • 2019 年 05 月 05 日

<h1>并行与分布式计算导论 第三次作业</h1><blockquote>Based on markdown 推荐使用markdown阅读器阅读，或访问 <a href="https://blog.gaoruixiao.com/go/aHR0cHM6Ly93d3cuZ2FvcnVpeGlhby5jb20vYXJjaGl2ZXMvNjYv" target="_blank" >并行与分布式计算导论——作业三</a></blockquote><h2>作业要求</h2><p>完成以下MPI程序，提交作业报告，并在报告的最后附源码，格式为PDF。<br><a href="https://blog.gaoruixiao.com/go/aHR0cDovL2xpbmh1Y2FvdGFuZy5jb20vcHJvYmxlbS81MiNNUEk" target="_blank" >“大”和“小”</a><br><a href="https://blog.gaoruixiao.com/go/aHR0cDovL2xpbmh1Y2FvdGFuZy5jb20vcHJvYmxlbS80Iw" target="_blank" >求素数</a>（这题ref程序有问题，不要求对比，可以自己写一个串行的函数验证正确性）<br>（求pi的那题出了点问题，换成大和小，视图的概念如附件所示）<br>报告的内容可以包括：<br>1.并行的核心代码或核心思想；<br>2.与参考串行/并行程序相比较，或使用不同的线程数量比较输出结果并简单分析；<br>3.使用MPI的心得或遇到的困难。</p><h2>"大"和"小"</h2><h3>临湖草堂数据对比</h3><table><thead><tr><th align="left">问题规模N</th><th align="left">线程数</th><th align="left">加速比</th><th align="left">线程数</th><th align="left">加速比</th><th align="left">线程数</th><th align="left">加速比</th></tr></thead><tbody><tr><td align="left">$10$</td><td align="left">1</td><td align="left">0.569</td><td align="left">2</td><td align="left">0.209</td><td align="left">4</td><td align="left">0.044</td></tr><tr><td align="left">$12$</td><td align="left">1</td><td align="left">0.691</td><td align="left">2</td><td align="left">0.937</td><td align="left">4</td><td align="left">1.269</td></tr><tr><td align="left">$14$</td><td align="left">1</td><td align="left">1.035</td><td align="left">2</td><td align="left">1.406</td><td align="left">4</td><td align="left">3.180</td></tr></tbody></table><p>从上表中可以看出，当问题规模上升，并且线程数上升时，并行计算的时间大幅降低。</p><h3>林湖草堂输出示例</h3><p><a href="https://blog.gaoruixiao.com/go/aHR0cDovL2xpbmh1Y2FvdGFuZy5jb20vc3VibWlzc2lvbi8zMzk5Mw" target="_blank" >http://linhucaotang.com/submission/33993</a></p><pre><code>array-size = 2^14

**************stdout from your impl.****************
k2
bufLen:32768, 32768 0 
k2
bufLen:32768, 32768 1 
k2
bufLen:32768, 32768 2 
k5
bufLen:81920, 81920 3

===================================================================================
=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES
=   PID 121570 RUNNING AT ailab-fx2-server-02
=   EXIT CODE: 134
=   CLEANING UP REMAINING PROCESSES
=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES
===================================================================================
YOUR APPLICATION TERMINATED WITH THE EXIT STRING: Aborted (signal 6)
This typically refers to a problem with your application.
Please see the FAQ page for debugging suggestions

******************result evaluation*****************
congratulations! the anwser is correct.

***************performance evaluation***************
reference serial impl.  : time_cost=8.2295e-05
reference parallel impl.: time_cost=2.3413e-04 speedup=0.351   
your impl.              : time_cost=1.9550e-05 speedup=4.209</code></pre><h3>本题难点</h3><ol><li>本题主要是题目的输入输出有明确规定，正确理解题意需要下一番功夫</li><li>程序中基本上都是以字节数计数的，需要注意</li><li>当线程数非2的幂次时，程序无法均分，需要特殊处理</li></ol><h3>源代码</h3><pre><code class="lang-cpp">#include &lt;stdio.h&gt;
#include &lt;stdlib.h&gt;
#include &lt;mpi.h&gt;
#include &lt;math.h&gt;
#include &quot;fio.h&quot;

//extern struct FILE_SEG {
//
//    int64_t offset;
//
//    int64_t width;
//
//    int64_t stride;
//
//};

typedef unsigned char byte;

extern int64_t input_data(void *buf, int64_t count, FILE_SEG fseg);

extern int64_t output_data(void *buf, int64_t count, FILE_SEG fseg);

int main(int argc, char **argv) {

int N = atoi(argv[1]);
    int num = pow(2, N);

MPI_Init(NULL, NULL);
    int rank;
    int world;

MPI_Comm_rank(MPI_COMM_WORLD, &amp;rank);
    MPI_Comm_size(MPI_COMM_WORLD, &amp;world);

int size = num / 2 / world;

FILE_SEG fseg;
    fseg.offset = size * rank * sizeof(int64_t);
    fseg.width = size * sizeof(int64_t);
    fseg.stride = sizeof(int64_t) * (num - size * (2 * rank + 1));
    if(rank==world-1) {
        fseg.width = (num / 2 - size * rank) * sizeof(int64_t);
        fseg.stride=fseg.width;
    }

int64_t length = sizeof(int64_t) * num;
    int64_t k = 0;
    while (k * fseg.stride + fseg.offset &lt; length)
        k++;
    printf(&quot;k%lld\n&quot;,k);
    int64_t bufLen = k * fseg.width;
    byte *data = new byte[bufLen];
    int64_t x = input_data(data, bufLen, fseg);
    printf(&quot;bufLen:%lld, %lld %d \n&quot;, bufLen, x, rank);

int wid=fseg.width/ sizeof(int64_t);
    for (int i = 0; i &lt; wid; i++) {
        if(((int64_t *) data)[i]&gt;((int64_t *) data)[2*wid-1-i]){
            //printf(&quot;%lld,%lld,&quot;,((int64_t *) data)[i],((int64_t *) data)[2*wid-1-i]);
            int64_t tmp =((int64_t *) data)[i];
            ((int64_t *) data)[i]=((int64_t *) data)[2*wid-1-i];
            ((int64_t *) data)[2*wid-i-1]=tmp;
        }
    }
    //MPI_Barrier(MPI_COMM_WORLD);
    //printf(&quot;\n&quot;);

output_data(data,2*fseg.width,fseg);

printf(&quot;Hello: rank %d, world: %d\n&quot;, rank, world);

MPI_Finalize();

return 0;
}</code></pre><h2>求素数</h2><h3>结果比较(本机8代标压酷睿i7-6核心)</h3><table><thead><tr><th align="left">问题规模</th><th align="left">线程数</th><th align="left">时间(ms)</th><th align="left">线程数</th><th align="left">时间(ms)</th><th align="left">线程数</th><th align="left">时间(ms)</th><th align="left">线程数</th><th align="left">时间(ms)</th></tr></thead><tbody><tr><td align="left">$8$</td><td align="left">1</td><td align="left">86</td><td align="left">2</td><td align="left">91</td><td align="left">4</td><td align="left">105</td><td align="left">6</td><td align="left">119</td></tr><tr><td align="left">$12$</td><td align="left">1</td><td align="left">91</td><td align="left">2</td><td align="left">96</td><td align="left">4</td><td align="left">103</td><td align="left">6</td><td align="left">118</td></tr><tr><td align="left">$15$</td><td align="left">1</td><td align="left">91</td><td align="left">2</td><td align="left">99</td><td align="left">4</td><td align="left">110</td><td align="left">6</td><td align="left">127</td></tr><tr><td align="left">$18$</td><td align="left">1</td><td align="left">161</td><td align="left">2</td><td align="left">154</td><td align="left">4</td><td align="left">166</td><td align="left">6</td><td align="left">189</td></tr></tbody></table><p>从表中可以看出，并行算法并没有加速，这是由于MPI传递信息的时间占比较大，并行加速不明显，另外，从下面部分也可以看出，在本地并非几线程就将CPU满载至百分之几百，这也是时间不准的原因之一。</p><h3>本地示例输出</h3><pre><code># rainshaw @ gaoruixodeMBP15 in ~/Desktop/Code/CLionProjects/Parallel&amp;DistributedProgramming/homework3/findPrime/cmake-build-debug [3:14:49] 
$ time mpirun -np 6 findPrime 18
mpirun -np 6 findPrime 18  0.35s user 0.13s system 254% cpu 0.189 total

# rainshaw @ gaoruixodeMBP15 in ~/Desktop/Code/CLionProjects/Parallel&amp;DistributedProgramming/homework3/findPrime/cmake-build-debug [3:15:04] 
$ time mpirun -np 4 findPrime 18
mpirun -np 4 findPrime 18  0.25s user 0.08s system 199% cpu 0.166 total

# rainshaw @ gaoruixodeMBP15 in ~/Desktop/Code/CLionProjects/Parallel&amp;DistributedProgramming/homework3/findPrime/cmake-build-debug [3:15:14] 
$ time mpirun -np 2 findPrime 18
mpirun -np 2 findPrime 18  0.17s user 0.05s system 141% cpu 0.154 total

# rainshaw @ gaoruixodeMBP15 in ~/Desktop/Code/CLionProjects/Parallel&amp;DistributedProgramming/homework3/findPrime/cmake-build-debug [3:15:31] 
$ time mpirun -np 1 findPrime 18
mpirun -np 1 findPrime 18  0.13s user 0.03s system 97% cpu 0.161 total</code></pre><h3>源码</h3><pre><code class="lang-c">#include &lt;stdio.h&gt;
#include &lt;stdlib.h&gt;
#include &lt;mpi.h&gt;
#include &lt;math.h&gt;

int isPrime(int n) {
    int flag = 1;
    if (n == 1 || n == 2)
        return 0;
    for (int m = 2; m &lt;= sqrt(n * 1.0); m++) {
        if (n % m == 0) {
            flag = 0;
            break;
        }
    }
    return flag;
}

int main(int argc, char **argv) {

int k = atoi(argv[1]);
    FILE *fp;

MPI_Init(NULL, NULL);
    int rank;
    int world;

int prime[(int) pow(2, 20)];
    prime[0] = 0;
    prime[1] = 0;

MPI_Comm_rank(MPI_COMM_WORLD, &amp;rank);
    MPI_Comm_size(MPI_COMM_WORLD, &amp;world);

int size = (int) pow(2, k) / world + 1;

for (int i = 1; i &lt;= size &amp;&amp; rank * size + i &lt;= (int) pow(2, k); i++) {
        prime[rank * size + i] = isPrime(rank * size + i);
    }

//printf(&quot;Hello: rank %d, world: %d, from %d to %d\n&quot;,rank, world, rank*size+1, rank*size+size);

if (rank != 0) {
        MPI_Send(prime, (int) pow(2, k), MPI_INT, 0, 0, MPI_COMM_WORLD);
        //printf(&quot;%d\n&quot;,rank);
    } else {
        for (int source = 1; source &lt; world; source++) {
            int buffer[(int) pow(2, k)];
            MPI_Recv(buffer, (int) pow(2, k), MPI_INT, source, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
            //printf(&quot;0 %d\n&quot;,source);
            for (int i = 0; i &lt; (int) pow(2, k); i++)
                prime[i] = (prime[i] || buffer[i]);
        }

}

if (rank == 0) {
        //fp = fopen(&quot;ref.out&quot;, &quot;w&quot;);
//        for(int i=1;i&lt;pow(2,k);i++)
//            if(prime[i]) {
//                printf(&quot;%d\n&quot;, i);
//                //fwrite(&amp;i, 64, 1, fp);
//            }
        for (int i = 2; i &lt; pow(2, k); i++)
            if (prime[i] != isPrime(i))
                printf(&quot;False check at %d\n&quot;, i);
    }

MPI_Finalize();

return 0;
}</code></pre>

并行与分布式计算导论——作业三

并行与分布式计算导论第三次作业

作业要求

"大"和"小"

临湖草堂数据对比

林湖草堂输出示例

本题难点

源代码

求素数

结果比较(本机8代标压酷睿i7-6核心)

本地示例输出

源码

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

Typecho 评论异步通知插件——Notice

Handsome 主题解决 CodePrettify 代码高亮插件与 Vditor 兼容问题

Typecho 插件——MacHighlight 代码语法高亮插件

修复 Handsome 主题评论可见内格式错乱问题

Typecho 复制版权提醒插件

2020 ICST AFLNET 一种针对网络协议的灰盒模糊器

并行与分布式计算导论——作业三

Typecho 下 handsome 主题文章特殊格式

自建NAT64+DNS64服务

在Django3中使用 pathlib.Path 生成 BASE_DIR 时，Pycharm 无法找到静态文件

并行与分布式计算导论——作业三

并行与分布式计算导论 第三次作业

作业要求

"大"和"小"

临湖草堂数据对比

林湖草堂输出示例

本题难点

源代码

求素数

结果比较(本机8代标压酷睿i7-6核心)

本地示例输出

源码

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

并行与分布式计算导论——作业三

并行与分布式计算导论第三次作业

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款