帮忙看一下这一段代码，谢谢

OpenHero · 发表于 2010-3-13 00:57

if( (y< (256-48)) && (x<(256-48))) 这个地方不需要判断大于0就可以
x和y铁定大于0，要不然就是硬件挂了，，，，

dSigmaST=0.0f;
dSigmaS=0.0f;

换成register，用local 会很慢的

snapshotwhu · 发表于 2010-3-13 00:58

好的，这是个错误，还有别的错误吗？急求啊！！

snapshotwhu · 发表于 2010-3-13 01:03

问题是我每计算到一个地方，dSigmaST，dSigmaS 都要置0一次。所以我也是用cudamalloc 分配的。

用cudamalloc 分配的就是 local吗？我记得好像是global 啊！

OpenHero · 发表于 2010-3-13 01:35

这两个都是临时变量，最终也没有记录作用的，所以这两个都是可以直接用register来存储，性能会快很多，cudamalloc分配的是global的内存，会很慢，现在的global和local都是同样的global内存，没有缓冲的。
这个代码最后还有一个问题，就是大家找到的并一不一定都是最大的，因为所有的线程都在写最后的输出的变量，这个地方需要修改一下，可以先得到16*16个，然后再得到最大的哪一个；

OpenHero · 发表于 2010-3-13 01:35

__global__ void result(unsigned char *id, unsigned char *itempd , int* nMaxWidth, int* nMaxHeight, float* dMaxR)
{

long m,n;
//float R=0.0f;

unsigned char P=0;
unsigned char TempP=0;
float dSigmaST = 0.0f;
float dSigmaS = 0.0f;

__shared__ float R[16][9];

float nMaxWidth_ = x;
float nMaxHeight_ = y;

long y=blockDim.y*blockIdx.y+threadIdx.y;//高
long x=blockDim.x*blockIdx.x+threadIdx.x;//宽

if( y< (256-48)) && x< (256-48))
{

for(m=0;m<48;m++)
{
for(n=0;n<48;n++)
{
P=id[(y+m)*256+x+n];
TempP=itempd[m*48+n];

dSigmaS+=(float)(P*P);
dSigmaST+=(float)(Pixel*TempP);
}
}

R[threadIdx.y][threadIdx.x]=dSigmaST/(sqrt(dSigmaS)*sqrt(32621576));
}

if (threadIdx.x <8)
{
if (R[threadIdx.y][threadIdx.x] < R[threadIdx.y][threadIdx.x+8])

.............
部分代码，其他的自己补充了

帮忙看一下这一段代码，谢谢

回复 #8 cyrosly 的帖子

回复 #11 OpenHero 的帖子

浏览过的版块