作业要求
完成以下OpenMP程序,提交作业报告,并在报告的最后附源码,格式为PDF。
Find Prime
矩阵乘法
Calculate π
报告的内容可以包括:
1.并行的核心代码或核心思想;
2.与参考串行/并行程序相比较,或使用不同的线程数量比较输出结果并简单分析;
3.使用OpenMP的心得或遇到的困难。
并行的核心代码与核心思想
并行计算一般是指将多个可同时运行的程序指令经由不同的处理器核心同时处理。在同时进行的前提下,可以将计算的过程分解成小部分,之后以并发方式来加以解决,最核心的部分就是找到可以并行处理的模块,将该模块的任务分为可同时处理的子任务,分配给不同的核心。并行计算可以划分成时间并行和空间并行,时间并行就是指令流水化,空间并行指的是多个处理器协同工作,我们进行并行程序编程一般考虑后者。
FindPrime
结果比较(本机8代酷睿i7-6核心)
问题规模 | 线程数 | 时间(ms) | 线程数 | 时间(ms) | 线程数 | 时间(ms) | 线程数 | 时间(ms) |
---|---|---|---|---|---|---|---|---|
$10^4$ | 1 | 5 | 2 | 6 | 4 | 6 | 6 | 6 |
$10^6$ | 1 | 17 | 2 | 18 | 4 | 18 | 6 | 19 |
$10^7$ | 1 | 127 | 2 | 112 | 4 | 96 | 6 | 92 |
$10^8$ | 1 | 1661 | 2 | 1325 | 4 | 1226 | 6 | 1189 |
结果比较(临湖草堂)
问题规模 | 线程数 | 时间(ms) | 线程数 | 时间(ms) | 线程数 | 时间(ms) | 线程数 | 时间(ms) |
---|---|---|---|---|---|---|---|---|
$10^4$ | 1 | 2.0315 | 2 | 2.1173 | 3 | 4.0414 | 4 | 7.3610 |
$10^6$ | 1 | 10.891 | 2 | 8.5445 | 3 | 7.1368 | 4 | 10.641 |
$10^7$ | 1 | 83.352 | 2 | 59.296 | 3 | 51.739 | 4 | 38.473 |
$10^8$ | 1 | 1121.1 | 2 | 813.65 | 3 | 762.17 | 4 | 742.64 |
并附上4线程时,临湖草堂上的对比数据
reference serial impl. : time_cost=1.1242e+00 res:There are 5761455 primes less than or equal to 100000000
reference parallel impl.: time_cost=6.4164e-01 speedup=1.752e+00 res:There are 5761455 primes less than or equal to 100000000
your impl. : time_cost=6.9772e-01 speedup=1.611e+00 res:There are 5761455 primes less than or equal to 100000000
从两张表中可以看出,当问题规模较小时(小于$10^6$),采用并行算法并没有正面的增益,反而使得运行时间被延长,而当数据规模较大时,例如$10^8$,此时采用并行算法可以显著的降低程序运行时间。
程序源码
此处内容需要评论回复后(审核通过)方可阅读。
矩阵乘法
结果比较(临湖草堂)
m | n | p | 线程数 | 时间(ms) | speedup |
---|---|---|---|---|---|
100 | 100 | 100 | 1 | 2.5461e-02 | 1.197e+00 |
100 | 100 | 100 | 2 | 3.4905e-02 | 4.563e-01 |
100 | 100 | 100 | 3 | 2.3823e-02 | 1.285e+00 |
100 | 100 | 100 | 4 | 3.2910e-02 | 1.075e+00 |
100 | 100 | 100 | 8 | 2.8407e-02 | 1.259e+00 |
1000 | 1000 | 1000 | 1 | 2.6720e+00 | 1.064e+00 |
1000 | 1000 | 1000 | 2 | 2.2224e+00 | 1.243e+00 |
1000 | 1000 | 1000 | 3 | 2.0283e+00 | 1.333e+00 |
1000 | 1000 | 1000 | 4 | 1.9699e+00 | 1.361e+00 |
1000 | 1000 | 1000 | 8 | 1.8312e+00 | 1.515e+00 |
并附上1000*1000*1000规模4线程时,临湖草堂上的对比数据
reference serial impl. : time_cost=2.6812e+00
reference parallel impl.: time_cost=1.9257e+00 speedup=1.392e+00
your impl. : time_cost=1.9699e+00 speedup=1.361e+00 maximum error: 0.00
从表中可以看出,我所采用的大矩阵使用分块乘法,当并行运行时起到了一定的作用,对比参考的并行程序速度有小小的优势。
源代码
此处内容需要评论回复后(审核通过)方可阅读。
Calculate π
对比结果(本机8代酷睿i7-6核)
线程数 | 时间(ms) | 线程数 | 时间(ms) | 线程数 | 时间(ms) |
---|---|---|---|---|---|
1 | 126 | 2 | 68 | 3 | 50 |
4 | 41 | 5 | 33 | 6 | 29 |
对比结果(临湖草堂)
线程数 | 时间 | 线程数 | 时间 | 线程数 | 时间 | 线程数 | 时间 |
---|---|---|---|---|---|---|---|
1 | 4.6725e-02 | 2 | 4.4431e-02 | 3 | 3.4582e-02 | 4 | 2.6790e-02 |
并附上4线程时,临湖草堂上的数据对比
reference serial impl. : time_cost=9.2600e-02 pi:3.141593
reference parallel impl.: time_cost=3.3666e-02 speedup=2.751e+00 pi:3.141593
your impl. : time_cost=2.6790e-02 speedup=3.457e+00 pi:3.141593
从表中可以看出,使用并行计算PI值,能够有效的减少计算时间。且在本机上,计算时间与线程数大致成反比关系,可见加速算法的有效性。
源码
此处内容需要评论回复后(审核通过)方可阅读。
使用OpenMP的心得或遇到的困难。
记录一下自己掉进的坑
- 首先遇到的困难是需要对编译器进行配置,而由于我习惯采用
Mac
端的CLion IDE
,配置有一定复杂度,配置相关教程放到了[Mac 系统使用 CLion 进行 OpenMP 并行编程
](https://www.gaoruixiao.com/archives/51/) - 在本地测试程序时,我一开始是使用的
time.h
中的clock()
函数进行计时,但我发现,明明感觉到并行程序速度更快,但输出的时间不减反增,这使得我去搜索了其定义,发现计算的并不是真是时间。于是我才用time
系统命令time ./FindPrime threads_num n
来测量时间
心得与收获
- 首先最清楚的感受到,
OpenMP
的使用十分简单,简单的几个#pragma
就可以实现程序的并行处理,使得程序员可以专注于代码逻辑与功能,而不必关系多线程的实现。 - 其次是感觉到
OpenMP
的并行处理确实能够加快大规模数据的计算速度,自己写的程序也终于可以利用处理器的多个核心了! - 之后是感觉到
OpenMP
其实适合于小型业务,即单机处理业务,由于它适用于共享内存型的多处理器,所以如果要利用计算机集群进行告诉计算就不可以采用它进行编程了。
2 条评论
偷看
OωO