|
三和四是我自己测试过的,在GTX 295和C2050上读取一个shared数据38-42个clock, 而在这两种机器上读取一个warp的shared时间差不多
你说的很对. GT2XX上需要38个周期整! (测试是别人通过写GT2xx的机器码进行测试得到的).
手册一直在误导人, 说accessing the shared memory is as fast as accessing the registers.
所以手册上说的1个周期(read)或者24个周期(read-after-write), 真是不负责任的说法!!
老大您的数据很准确了! NV可耻! |
|