优化的CUDA矩阵汉明距离

拉金斯

有谁知道用于计算尺寸为A x N和N x B的两个矩阵之间的GEMM样式汉明距离的优化CUDA内核吗?这个问题与GEMM几乎相同,但是它为每个向量{1 ... N}计算sum(a_n!= b_n),而不是对每个向量元素进行乘法和求和。

我想在编写自己的代码之前先进行验证,因为这个问题相对普遍,但是我还没有成功找到它的代码。修改代码的建议也将非常出色。

编辑:

除了以下kangshiyin的建议外,我发现优化SGEMM实现的本演练对理解CUDA C编程指南中基本共享内存矩阵乘法示例之外的步骤也非常有帮助。

kangshiyin

没错,您可以通过修改gemm()代码来编写内核CUDA示例具有的简单实现gemm(),但这太简单了。性能受共享内存访问的限制,在开普勒设备上仅提供约250 Gflops。为了获得更高的性能,您可能需要检查gemm()MAGMA中代码。

http://icl.cs.utk.edu/magma/index.html

这两篇论文还告诉您如何实现和调整gemm()

http://staff.kfupm.edu.sa/ics/ahkhan/Resources/Papers/Autotuning/Au​​totuning%2520GEMM%2520Kernels%2520for%2520the%2520Fermi%2520GPU.pdf

http://www.netlib.org/lapack/lawnspdf/lawn267.pdf

gemm()FMA指令的硬件支持快速乘法和加法运算不同的是,所需的比较和加法运算可能需要更多指令,因此性能应较低。考虑到gemm()开普勒的峰值性能约为3 Tflops。汉明距离矩阵计算可能会获得0.5〜2 Tflops。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

优化的CUDA矩阵汉明距离

来自分类Dev

Python - 如何生成成对汉明距离矩阵

来自分类Dev

汉明距离的倒数

来自分类Dev

汉明距离总和

来自分类Dev

快速计算汉明距离

来自分类Dev

确定最小汉明距离

来自分类Dev

汉明距离与 powershell 的比较

来自分类Dev

计算两个整数矩阵/数据帧的所有行之间的成对汉明距离

来自分类Dev

(速度挑战)根据通用汉明距离,有没有更快的方法来计算距离矩阵?

来自分类Dev

用于计算汉明距离的索引访问

来自分类Dev

古代Microsoft DBMS中的汉明距离

来自分类Dev

MSSQL BIT_COUNT(汉明距离)

来自分类Dev

NetLogo:删除给定汉明距离的乌龟

来自分类Dev

选择汉明距离为零的读数

来自分类Dev

用python解释汉明距离速度

来自分类Dev

如何计算CRC码的汉明距离

来自分类Dev

FLANN比赛之间的OpenCV汉明距离

来自分类Dev

有效使用python计算汉明距离

来自分类Dev

mysql两汉字之间的汉明距离

来自分类Dev

如何计算两个short int的汉明距离?

来自分类Dev

查找具有特定汉明距离LINQ的琴弦

来自分类Dev

对一组测试最小汉明距离的算法?

来自分类Dev

如何加快BIT_COUNT查询的汉明距离?

来自分类Dev

在VBA Excel中计算汉明重量和/或距离

来自分类Dev

汉明距离的三元函数,其中“ 2”是通配符

来自分类Dev

两个整数的汉明距离mysql

来自分类Dev

使用`dplyr`计算有效汉明距离

来自分类Dev

简单快速的方法来计算二进制整数到0的汉明距离?

来自分类Dev

我应该如何存储和计算二进制代码之间的汉明距离?