使用CUDA Thrust确定2个最大元素及其在每个矩阵行中的位置

路卡

我有一个矩阵,我需要计算2最大的数字及其在矩阵每一行中的位置。我最初的尝试是尝试对矩阵的每一行进行排序,然后查看最后两个值。虽然我可以对每一行进行排序,但是我无法获得置换向量来获取原始索引。因此,我的尝试(在SO上使用其他线程)如下:

int my_mod_start = 0;
int my_mod()
{
    return (my_mod_start++)/10;
}

const int rows = 2;
const int cols = 10;
const int num_points = rows * cols;

thrust::host_vector<float> data(num_points);
// fill with random values
thrust::device_vector<float> d_r = data;
thrust::host_vector<int> h_segments(rows*cols);
thrust::generate(h_segments.begin(), h_segments.end(), my_mod);

thrust::device_vector<int> d_segments = h_segments;
thrust::stable_sort_by_key(d_r.begin(), d_r.end(), d_segments.begin());
thrust::stable_sort_by_key(d_segments.begin(), d_segments.end(), 
                           d_r.begin());

尽管此方法按预期对每一行进行排序,但我不确定如何修改它以获取每个值的原始索引。

我还想到,如果只需要最大值2和它们的位置,则整行排序可能会很浪费

活力

我采用了Robert Crovella指出的方法,即使用CUDA Thrust确定最小元素及其在每个矩阵列中的位置该方法考虑了确定最小值而不是最大值的问题,并产生两个迭代器和一个向量:

  1. d_min_indices_1:迭代器,它指向每行最后一个元素的索引;
  2. d_min_indices_2:迭代器,它指向每行倒数第二个元素的索引;
  3. d_matrix:原始矩阵,但每一行都按升序排序。

可以从有序矩阵中确定倒数第二个元素的值d_matrix

#include <iterator>
#include <algorithm>

#include <thrust/random.h>
#include <thrust/device_vector.h>
#include <thrust/iterator/counting_iterator.h>
#include <thrust/iterator/transform_iterator.h>
#include <thrust/iterator/permutation_iterator.h>
#include <thrust/iterator/zip_iterator.h>
#include <thrust/iterator/discard_iterator.h>
#include <thrust/reduce.h>
#include <thrust/functional.h>
#include <thrust/sort.h>

template <typename Iterator>
class strided_range
{
    public:

    typedef typename thrust::iterator_difference<Iterator>::type difference_type;

    struct stride_functor : public thrust::unary_function<difference_type,difference_type>
    {
        difference_type stride;

        stride_functor(difference_type stride)
            : stride(stride) {}

        __host__ __device__
        difference_type operator()(const difference_type& i) const
        { 
            return stride * i;
        }
    };

    typedef typename thrust::counting_iterator<difference_type>                   CountingIterator;
    typedef typename thrust::transform_iterator<stride_functor, CountingIterator> TransformIterator;
    typedef typename thrust::permutation_iterator<Iterator,TransformIterator>     PermutationIterator;

    // type of the strided_range iterator
    typedef PermutationIterator iterator;

    // construct strided_range for the range [first,last)
    strided_range(Iterator first, Iterator last, difference_type stride)
        : first(first), last(last), stride(stride) {}

    iterator begin(void) const
    {
        return PermutationIterator(first, TransformIterator(CountingIterator(0), stride_functor(stride)));
    }

    iterator end(void) const
    {
        return begin() + ((last - first) + (stride - 1)) / stride;
    }

    protected:
    Iterator first;
    Iterator last;
    difference_type stride;
};


/**************************************************************/
/* CONVERT LINEAR INDEX TO ROW INDEX - NEEDED FOR APPROACH #1 */
/**************************************************************/
template< typename T >
struct mod_functor {
    __host__ __device__ T operator()(T a, T b) { return a % b; }
};

/********/
/* MAIN */
/********/
int main()
{
    /***********************/
    /* SETTING THE PROBLEM */
    /***********************/
    const int Nrows = 4;
    const int Ncols = 6;

    // --- Random uniform integer distribution between 10 and 99
    thrust::default_random_engine rng;
    thrust::uniform_int_distribution<int> dist(10, 99);

    // --- Matrix allocation and initialization
    thrust::device_vector<float> d_matrix(Nrows * Ncols);
    for (size_t i = 0; i < d_matrix.size(); i++) d_matrix[i] = (float)dist(rng);

    for(int i = 0; i < Nrows; i++) {
        std::cout << "[ ";
        for(int j = 0; j < Ncols; j++)
            std::cout << d_matrix[i * Ncols + j] << " ";
        std::cout << "]\n";
    }

    /******************/
    /* APPROACH NR. 2 */
    /******************/
    // --- Computing row indices vector
    thrust::device_vector<int> d_row_indices(Nrows * Ncols);
    thrust::transform(thrust::make_counting_iterator(0), thrust::make_counting_iterator(Nrows * Ncols), thrust::make_constant_iterator(Ncols), d_row_indices.begin(), thrust::divides<int>() );

    // --- Computing column indices vector
    thrust::device_vector<int> d_column_indices(Nrows * Ncols);
    thrust::transform(thrust::make_counting_iterator(0), thrust::make_counting_iterator(Nrows * Ncols), thrust::make_constant_iterator(Ncols), d_column_indices.begin(), mod_functor<int>());

    // --- int and float iterators
    typedef thrust::device_vector<int>::iterator        IntIterator;
    typedef thrust::device_vector<float>::iterator      FloatIterator;

    // --- Relevant tuples of int and float iterators
    typedef thrust::tuple<IntIterator, IntIterator>     IteratorTuple1;
    typedef thrust::tuple<FloatIterator, IntIterator>   IteratorTuple2;

    // --- zip_iterator of the relevant tuples
    typedef thrust::zip_iterator<IteratorTuple1>        ZipIterator1;
    typedef thrust::zip_iterator<IteratorTuple2>        ZipIterator2;

    // --- zip_iterator creation
    ZipIterator1 iter1(thrust::make_tuple(d_row_indices.begin(), d_column_indices.begin()));

    thrust::stable_sort_by_key(d_matrix.begin(), d_matrix.end(), iter1);

    ZipIterator2 iter2(thrust::make_tuple(d_matrix.begin(), d_column_indices.begin()));

    thrust::stable_sort_by_key(d_row_indices.begin(), d_row_indices.end(), iter2);

    typedef thrust::device_vector<int>::iterator Iterator;

    // --- Strided access to the sorted array
    strided_range<Iterator> d_min_indices_1(d_column_indices.begin(), d_column_indices.end(), Ncols);
    strided_range<Iterator> d_min_indices_2(d_column_indices.begin() + 1, d_column_indices.end() + 1, Ncols);

    printf("\n\n");
    for(int i = 0; i < Nrows; i++) {
        std::cout << "[ ";
        for(int j = 0; j < Ncols; j++)
            std::cout << d_matrix[i * Ncols + j] << " ";
        std::cout << "]\n";
    }

    printf("\n\n");
    std::copy(d_min_indices_1.begin(), d_min_indices_1.end(), std::ostream_iterator<int>(std::cout, " "));
    std::cout << std::endl;

    printf("\n\n");
    std::copy(d_min_indices_2.begin(), d_min_indices_2.end(), std::ostream_iterator<int>(std::cout, " "));
    std::cout << std::endl;

    return 0;
}

如果要确定最大值,请更改两行

strided_range<Iterator> d_min_indices_1(d_column_indices.begin(), d_column_indices.end(), Ncols);
strided_range<Iterator> d_min_indices_2(d_column_indices.begin() + 1, d_column_indices.end() + 1, Ncols);

strided_range<Iterator> d_min_indices_1(d_column_indices.begin() + Ncols - 1, d_column_indices.end() + Ncols - 1, Ncols);
strided_range<Iterator> d_min_indices_2(d_column_indices.begin() + Ncols - 2, d_column_indices.end() + Ncols - 2, Ncols);

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用SSE和AVX查找矩阵及其列和行索引中的最大元素

来自分类Dev

使用CUDA / thrust在数组中设置每个float4的一个元素

来自分类Dev

使用CUDA在矩阵中添加相邻元素

来自分类Dev

如何使用max函数在矩阵中找到最大元素及其索引?

来自分类Dev

使用CUDA减少矩阵列

来自分类Dev

使用CUDA减少矩阵列

来自分类Dev

获得CUDA Thrust以使用您选择的CUDA流

来自分类Dev

使用Thrust,CUDA进行慢速排序

来自分类Dev

在主机上顺序使用CUDA Thrust算法

来自分类Dev

使用CUDA / Thrust使关键出现的次数相等

来自分类Dev

如何确定Vulkan使用的是与CUDA相同的GPU?

来自分类Dev

如何使用CUDA C执行矩阵加法

来自分类Dev

使用“ ==”获取数组中的最大元素

来自分类Dev

在CUDA中使用Half2

来自分类Dev

在opencv 3中使用cuda :: morphologyex

来自分类Dev

理解memset在CUDA设备代码中的使用

来自分类Dev

Java:使用2个数组查找数组的第K个最大元素

来自分类Dev

使用CUDA计算矩阵对应行之间的欧几里得距离

来自分类Dev

使用CUDA对矩阵进行按行/按列操作

来自分类Dev

如何使用LINQ从具有重复项的列表中获得第N个最大元素?

来自分类Dev

使用递归在Python列表中查找第K个最大元素

来自分类Dev

如何使用LINQ从具有重复项的列表中获得第N个最大元素?

来自分类Dev

使用CUDA / Thrust对多个数组进行排序

来自分类Dev

使用推力对Cuda中的2D数组进行排序

来自分类Dev

在CUDA内核中使用许多固定大小的矩阵

来自分类Dev

CUDA,使用[a和b]之间的随机值填充矩阵

来自分类Dev

CUDA,使用[a和b]之间的随机值填充矩阵

来自分类Dev

CUDA + 使用 C 计算 int 元素的出现次数

来自分类Dev

使用JavaScript查找数组中的最大元素

Related 相关文章

热门标签

归档