orionsnow 发表于 2013-3-18 16:46

突然想弄个台机上用N显卡玩并行计算,有人弄过么?交流下

突然想弄个台机上用N显卡玩并行计算,有人弄过么?交流下

我纯菜鸟,就会装机机装系统,最后一次装是n 年前了。

tkkk3 发表于 2013-3-18 17:27

这年头电很贵的。

mymy365 发表于 2013-3-18 17:38

想到bitcoins挖矿的。。。。

insbire 发表于 2013-3-18 17:43

硬件上, 先看下你的主板是否支持SLI, N家的卡现在应该基本上都支持SLI, 不过选卡的时候还是要注意一下, 再买跟桥接线, 把卡桥接好.
软件方面, BIOS里设置好启用, 应该就可以了.

wangbiaouestc 发表于 2013-3-18 19:33

你玩并行计算, 具体做什么?CUDA在window和linux上都支持得很好

milo_j 发表于 2013-3-19 00:16

insbire 发表于 2013-3-18 17:43 static/image/common/back.gif
硬件上, 先看下你的主板是否支持SLI, N家的卡现在应该基本上都支持SLI, 不过选卡的时候还是要注意一下, 再买 ...

和Sli有什么关系?人家说并行计算说的是opencl

milo_j 发表于 2013-3-19 00:34

建议用opencl不要用cuda。移植到amd的卡上或者多核cpu上方便些。

还有建议没事就别玩opencl了,性能和体系架构关系太大。每次换卡都重新做优化,浪费时间。
这次好不容易从580GTX升级到680GTX。结果nv架构大换血,从fermi到kepler,sm变成了smx,一个smx塞进去192个核心。我之前的kernel是完全针对fermi优化的,又要重新改。
有人说为什么当初优化的那么彻底?能跑起来不久可以了? 反正比cpu快很多。但是问题是如果不是为了最大性能谁非要用opencl?cpu什么不能干?
所以结每次为了最优性能都要先研究当前的硬件架构,然后贴着硬件做最大优化。但是一旦换卡又要重新研究架构重新优化。架构不变还好,一旦大升级就比较浪费时间。
不过对于计算密集型的用gpu跑opencl速度优势比较明显,以前用cpu跑一周的运算现在不到3个小时就用gpu搞定了。
结论就是,如果不是工作上逼着别玩了。浪费时间

insbire 发表于 2013-3-19 01:09

milo_j 发表于 2013-3-19 00:16 static/image/common/back.gif
和Sli有什么关系?人家说并行计算说的是opencl

好些用GPU跑的计算是运算量很大, 会上并行+分布式架构了. N家的CUDA并行架构, 觉得lz应该是了解的. 所以就....
好吧, 应该是我想歪了

orionsnow 发表于 2013-3-19 09:41

wangbiaouestc 发表于 2013-3-18 19:33 static/image/common/back.gif
你玩并行计算, 具体做什么?CUDA在window和linux上都支持得很好

生物学方面的,序列拼接,高维回归模型矩阵求逆和概率计算

wangbiaouestc 发表于 2013-3-19 11:33

我有两年的OpenCL&CUDA经验, 现在把整个计算offload到GPU大概可以分为三步, 拷贝数据(CPU- >GPU)- launch kernel - 拷贝数据(GPU->CPU),我发现kernel本身的时间消耗不是很大,但是反而数据拷贝的时间很大,因为PCI的带宽限制
现在有两种方法可以减小数据拷贝的开销:
1. overlap 数据拷贝和kernel计算,现在N卡上支持DMA传输和计算同时执行,这样你可以以以下的方法pipeline 你的工作
data0 copy- kernel - data0 copy back
                     data1 copy- kernel - data1 copy back
                                             data2 copy- kernel - data2 copy back
如果你的数据很大(>1G), 那么你可以把数据分成多个Chunk (.e.g. 128M ),利用overlapping 就可以节省很多时间
2. 另外一种是从架构上避免拷贝。现在AMD 推出了APU, 就是CPU和GPU在一个chip上,共享地址空间,但是在linux下AMD的人作了很奇怪的限制还是需要拷贝,不过windows下就支持数据直接被CPU或者GPU访问(sourthern Islands 架构,或者GCN), Intel 的Ivy Bridge也是一个integrated CPU, 片上有GPU 模块,但是它的GPU性能比较弱。

所以如果楼主想玩的话,建议你买一块AMD A10的芯片,可以不要考虑数据拷贝的开销,也更加power efficient 一点。 当然,如果数据量很大,还是用台式机的N卡或者A卡吧,用overlap就可以把数据拷贝开销minimize.
希望对你有用


页: [1] 2 3
查看完整版本: 突然想弄个台机上用N显卡玩并行计算,有人弄过么?交流下