12
返回列表 发新帖
楼主: hnuzhoulin

[求助] 多个block在kernel里面循环时数据出错

[复制链接]
论坛徽章:
21
2010新春纪念徽章
日期:2010-03-01 11:08:292012新春纪念徽章
日期:2012-02-13 15:12:252012新春纪念徽章
日期:2012-02-13 15:12:252012新春纪念徽章
日期:2012-02-13 15:12:25版主3段
日期:2012-05-15 15:24:11马上有车
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:142012新春纪念徽章
日期:2012-02-13 15:12:25
11#
发表于 2010-5-11 22:33 | 只看该作者

回复 #10 NvidiaCTC 的帖子

他在模拟的时候应当就是同步的。

使用道具 举报

回复
论坛徽章:
20
2010新春纪念徽章
日期:2010-03-01 11:20:002012新春纪念徽章
日期:2012-02-13 15:12:252012新春纪念徽章
日期:2012-02-13 15:12:252012新春纪念徽章
日期:2012-02-13 15:12:25版主1段
日期:2012-05-15 15:24:11马上有车
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:142012新春纪念徽章
日期:2012-02-13 15:12:25
12#
发表于 2010-5-12 01:23 | 只看该作者
程序本身就有问题,那个同步也是不需要的,还有你那个循环里的每一步都是写相同的全局内存,但编译器也许不会假定它们不会再任何时候改变从而进行相应的优化(尤其当使用了volatile限定词后),所以这样最好用寄存器代替存储中间结果,只在循环体外读取和写入一次。算法上还是有问题。另外CPU(IA32)的浮点运算时80位扩展双精度,只在最终写入结果时将其有规则的截断为单精度或双精度,所以即使有点小差别也不足为怪,以为两个硬件在对的IEEE标准的支持实现上就不同。

使用道具 举报

回复
论坛徽章:
0
13#
发表于 2010-5-12 09:47 | 只看该作者
同意楼上意见

另外我认为在多核CPU上模拟运行仍然需要原子操作或者拆kernel保证全局同步

[ 本帖最后由 NvidiaCTC 于 2010-5-12 09:49 编辑 ]

使用道具 举报

回复
论坛徽章:
21
2010新春纪念徽章
日期:2010-03-01 11:08:292012新春纪念徽章
日期:2012-02-13 15:12:252012新春纪念徽章
日期:2012-02-13 15:12:252012新春纪念徽章
日期:2012-02-13 15:12:25版主3段
日期:2012-05-15 15:24:11马上有车
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:142012新春纪念徽章
日期:2012-02-13 15:12:25
14#
发表于 2010-5-12 11:00 | 只看该作者

回复 #13 NvidiaCTC 的帖子

这个也对,毕竟多核模拟的时候是可以多少线程并行执行的。

使用道具 举报

回复
论坛徽章:
1
ITPUB9周年纪念徽章
日期:2010-10-08 09:34:03
15#
 楼主| 发表于 2010-5-12 14:08 | 只看该作者

回复 #10 NvidiaCTC 的帖子

"各个线程的times不是同步的

acc[index]=calculate(atom,pos,acc[index]); //计算其他N个粒子对和线程对应的粒子的力

这一句是不成立的 "

这里该如何保证各个线程的times是同步的啊??
还有为什么cc[index]=calculate(atom,pos,acc[index]);不成立啊???有什么错误??我在这一句后面加上同步语句是不是会好些??

使用道具 举报

回复
论坛徽章:
1
ITPUB9周年纪念徽章
日期:2010-10-08 09:34:03
16#
 楼主| 发表于 2010-5-12 14:17 | 只看该作者

回复 #12 cyrosly 的帖子

“程序本身就有问题,那个同步也是不需要的,还有你那个循环里的每一步都是写相同的全局内存,但编译器也许不会假定它们不会再任何时候改变从而进行相应的优化(尤其当使用了volatile限定词后),所以这样最好用寄存器代替存储中间结果,只在循环体外读取和写入一次。算法上还是有问题。另外CPU(IA32)的浮点运算时80位扩展双精度,只在最终写入结果时将其有规则的截断为单精度或双精度,所以即使有点小差别也不足为怪,以为两个硬件在对的IEEE标准的支持实现上就不同。”
  
   这个同步确实似乎没什么作用啊,我应该加在acc[index]=calculate(atom,pos,acc[index])后面,这样保证在全部计算完之后再将计算结果写入全局内存。。

   我原本是想利用共享存储器来存pos,vel,acc的,也考虑过后期可能由于数据量加大,因此尝试过用分批从现存导入数据到共享存储器的方式计算,但是结果不令人满意,又由于毕业在即,所以就想简单一点,先不追求速度。。

    还问一下,你说的那个中间结果用寄存器。。中间结果是指各个进程计算的acc吧,要想把它存在寄存器里面是不是这个变量在kernel里面定义就好,不从host传进来就是存在寄存器啊,我原来就是这样的,后来不知道怎么觉得想排除各个进程都定义各自的acc可能存在的问题。。

  非常谢谢

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表