搜索

搜索

CUDA中的经线展开期间的线程同步

debugcn 发表于 Dev

14

戈尔戈多夫斯基

我正在努力让Mark Harris减少CUDA的减少技巧＃5 。

减少＃5通过应用最后的扭曲展开来改善先前的减少＃4。

幻灯片21提到：“我们不需要__syncthreads()”，这是我不理解的部分。

这是具有主要逻辑的代码：

__device__ void warpReduce(volatile int* sdata, int tid) {
  sdata[tid] += sdata[tid + 32]; // line A
  sdata[tid] += sdata[tid + 16]; // line B
  sdata[tid] += sdata[tid + 8];
  sdata[tid] += sdata[tid + 4];
  sdata[tid] += sdata[tid + 2];
  sdata[tid] += sdata[tid + 1];
}

// later...
for (unsigned int s=blockDim.x/2; s>32; s>>=1) {
  if (tid < s)
    sdata[tid] += sdata[tid + s];
  __syncthreads();
}
if (tid < 32) warpReduce(sdata, tid);

我不明白为什么没有__syncthreads()线之间一个和线乙（和下一线之间为好）。

我的问题：是否有可能在同一线程中，一个线程先执行B行，而另一个线程先执行A行？（似乎不可能，请任何人确认并详细说明）

看守人

在同一经纱中，一个线程是否可以在另一线程执行线A之前执行B行？

在撰写本文时（大约10年前），不可能发生这种情况，因为保证了翘曲可以在锁定步骤中执行。请注意，需要声明有问题的内存，volatile以防止编译器优化在Fermi和较新的GPU的缩减步骤之间缓存结果。在不需要的原始Tesla架构上。

但是，执行扭曲级操作的最新方式已经改变，并且这种类型的设计模式在某些最新的体系结构上可能是不安全的。取而代之的是，您应该使用扭曲级别原语进行缩减，而不是隐式扭曲同步。有关更多信息，请参见此博客文章。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-5

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

经线不同步

来自分类Dev

Qt中的线程同步

来自分类Dev

在Boost中同步线程

来自分类Dev

Linux中的线程同步？

来自分类Dev

Linux中的线程同步？

来自分类Dev

CUDA经线和线散度

来自分类Dev

OpenCv已经线程化了吗？

来自分类Dev

线程之间保留的Cuda展开循环变量

来自分类Dev

CUDA循环在数组添加中展开

来自分类Dev

.NET中的工作线程同步

来自分类Dev

在C＃中同步线程

来自分类Dev

在Python中同步多线程

来自分类Dev

多线程中的同步块

来自分类Dev

确定CUDA中#pragma展开N的最佳值

来自分类Dev

定时和VCL同步（在线程中/从线程中）

来自分类Dev

在同步方法内部的线程中的同步块会发生什么？

来自分类Dev

在多个线程上同步Java中的队列

来自分类Dev

在Java中同步两个线程

来自分类Dev

在python中同步2个线程

来自分类Dev

Python中的同步-Gevent多线程环境

来自分类Dev

监视C中同步线程的源代码

来自分类Dev

在PHP中同步和暂停线程

来自分类Dev

如何在TIdTCPServer OnExecute中同步线程

来自分类Dev

Java中的线程安全和代码同步

来自分类Dev

任务并行库（TPL）中的线程同步

来自分类Dev

C ++中的多线程数据同步

来自分类Dev

如何在Oracle中同步线程？

来自分类Dev

在单独的线程中同步更新属性

来自分类Dev

fork（）多线程进程中的同步

Related 相关文章

文章

热门标签

归档