启动大量线程和块时,CUDA printf()崩溃

Shuda Li

我正在使用CUDA 6.5 + VS2013 + GTX Titan黑色。我观察到,当线程总数大于65536时,以下打印代码将崩溃。我用Google搜索了一下,但没有发现有用的东西。还有其他人会观察到相同的行为吗?还是有人可以提供一些解释?非常感谢你!

__global__ void testKernel(int val)
{
    int X = blockDim.x * blockIdx.x + threadIdx.x;
    int Y = blockDim.y * blockIdx.y + threadIdx.y;
    printf("[%d, %d]:\t" "\tValue is:%d\n", X, Y, val);
}

void main(){

    dim3 block(16,16);
    dim3 grid(16,16);
    testKernel << <grid, block >> >(10);
    cudaDeviceSynchronize();
    cudaGetLastError();

    cudaDeviceReset();
}

当我使用block(32,16)和grid(16,16)时,出现以下错误消息:

Gpu API调用(启动超时并被终止)...

Shuda Li

多亏了Robert的回答,我才意识到问题可能出在缓冲区的大小上。我使用以下代码来查找默认情况下打印缓冲区的大小为1048576字节(1M)

size_t sz;
cudaDeviceGetLimit(&sz, cudaLimitPrintfFifoSize);
std::cout << sz << std::endl;

当我使用以下代码将缓冲区大小增加到100 Mb时,错误消失,并且我具有所有预期的输出,总计131072行!(我使用block(32,16); .. grid(16,16); ...)

sz = 1048576 * 100;
cudaDeviceSetLimit(cudaLimitPrintfFifoSize, sz);

不知何故,打印缓冲区的溢出会导致响应时间比平常更长,并触发TDR。当我相应地增加缓冲区大小时,代码设法在超时之前完成。更重要的是,足够的缓冲区大小可确保没有数据丢失。

但是,我认为缓冲区大小和执行时间的上限取决于设备。它可以在Titan Black上很好地工作,并不一定意味着它也可以在其他NVidia卡上工作。再次,我同意Robert的观点,即使用printf从CUDA内核中导出大量数据在实践中是不可靠的。我只是用它来转储一些信息来调试内核。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章