多个block在kernel里面循环时数据出错

yyfn风辰 · 发表于 2010-5-11 22:33

他在模拟的时候应当就是同步的。

cyrosly · 发表于 2010-5-12 01:23

程序本身就有问题，那个同步也是不需要的，还有你那个循环里的每一步都是写相同的全局内存，但编译器也许不会假定它们不会再任何时候改变从而进行相应的优化（尤其当使用了volatile限定词后），所以这样最好用寄存器代替存储中间结果，只在循环体外读取和写入一次。算法上还是有问题。另外CPU(IA32)的浮点运算时80位扩展双精度，只在最终写入结果时将其有规则的截断为单精度或双精度，所以即使有点小差别也不足为怪，以为两个硬件在对的IEEE标准的支持实现上就不同。

NvidiaCTC · 发表于 2010-5-12 09:47

同意楼上意见

另外我认为在多核CPU上模拟运行仍然需要原子操作或者拆kernel保证全局同步

[ 本帖最后由 NvidiaCTC 于 2010-5-12 09:49 编辑 ]

yyfn风辰 · 发表于 2010-5-12 11:00

这个也对，毕竟多核模拟的时候是可以多少线程并行执行的。

hnuzhoulin · 发表于 2010-5-12 14:08

"各个线程的times不是同步的

acc[index]=calculate(atom,pos,acc[index]); //计算其他N个粒子对和线程对应的粒子的力

这一句是不成立的 "

这里该如何保证各个线程的times是同步的啊？？
还有为什么cc[index]=calculate(atom,pos,acc[index]);不成立啊???有什么错误？？我在这一句后面加上同步语句是不是会好些？？

hnuzhoulin · 发表于 2010-5-12 14:17

“程序本身就有问题，那个同步也是不需要的，还有你那个循环里的每一步都是写相同的全局内存，但编译器也许不会假定它们不会再任何时候改变从而进行相应的优化（尤其当使用了volatile限定词后），所以这样最好用寄存器代替存储中间结果，只在循环体外读取和写入一次。算法上还是有问题。另外CPU(IA32)的浮点运算时80位扩展双精度，只在最终写入结果时将其有规则的截断为单精度或双精度，所以即使有点小差别也不足为怪，以为两个硬件在对的IEEE标准的支持实现上就不同。”

这个同步确实似乎没什么作用啊，我应该加在acc[index]=calculate(atom,pos,acc[index])后面，这样保证在全部计算完之后再将计算结果写入全局内存。。

我原本是想利用共享存储器来存pos，vel，acc的，也考虑过后期可能由于数据量加大，因此尝试过用分批从现存导入数据到共享存储器的方式计算，但是结果不令人满意，又由于毕业在即，所以就想简单一点，先不追求速度。。

还问一下，你说的那个中间结果用寄存器。。中间结果是指各个进程计算的acc吧，要想把它存在寄存器里面是不是这个变量在kernel里面定义就好，不从host传进来就是存在寄存器啊，我原来就是这样的，后来不知道怎么觉得想排除各个进程都定义各自的acc可能存在的问题。。

非常谢谢

[求助] 多个block在kernel里面循环时数据出错

回复 #10 NvidiaCTC 的帖子

回复 #13 NvidiaCTC 的帖子

回复 #10 NvidiaCTC 的帖子

回复 #12 cyrosly 的帖子

浏览过的版块