特征相似度的成对距离计算（多维矩阵）

debugcn 发表于 Dev

T Stsn。

好的，这是matlab中的公式：

function D = dumDistance(X,Y)
n1 = size(X,2);
n2 = size(Y,2);
D = zeros(n1,n2);
for i = 1:n1
    for j = 1:n2
        D(i,j) = sum((X(:,i)-Y(:,j)).^2);
    end
end

这里的功劳（我知道这不是一个快速的实现，而是出于基本算法的考虑）。

现在这是我的理解问题；

假设我们有一个矩阵dictionary=140x100词。和一个矩阵page=140x40字。每列代表140维空间中的一个单词。

现在，如果使用dumDistance(page,dictionairy)它，它将返回一个40x100带有距离的矩阵。

我要实现的是找到page矩阵的每个单词与矩阵有多接近dictionary，以便根据字典用直方图表示页面。

我知道，如果我采用min（40x100），则将得到一个1x100矩阵，该矩阵的最小值表示我的直方图。

我在这里真正无法理解的是这个40x100矩阵。这个矩阵仍然代表什么数据？我在脑海中无法想象这一点。

雷瑞恩

在我开始之前的小评论：

您应该真正使用它pdist2。这样会更快，并且您将获得与相同的结果dumDistance。换句话说，您可以这样称呼它：

D = pdist2(page.', dictionary.');

你需要调换page和dictionary作为pdist2假定每个行是一个观察，而每列对应的变量/功能。您的数据结构使得每一列都是一个观察值。这将返回一个40 x 100矩阵，就像您在中看到的一样dumDistance。但是，pdist2 不使用forloops。

现在到您的问题：

D(i,j)表示页面上的单词与词典中的单词之间的欧几里德平方距离。您的页面上有40个单词，而字典中有100个单词。每个词都由140维特征向量表示，因此索引的行索引为的单词，而索引的列索引为的单词。ijDpageDdictionary

我在这里所说的“距离”是指特征空间。页面和词典中的每个单词都表示为140个长度的向量。每个条目(i,j)的D需要第i^个从向量page和第j^个向量从dictionary每个它们对应的分量的相减，平方，然后将它们相加。然后将此输出存储到中D(i,j)。这给你的字间的差异性i，从你page和字j从你dictionary的D(i,j)。值越高，两个单词越相似。

次要说明： pdist2计算欧几里得距离，同时dumDistance计算欧几里得平方距离。如果您想拥有与之相同的东西dumDistance，只需将Dfrom中的每个元素平方即可pdist2。换句话说，只需计算即可D.^2。

希望这可以帮助。祝你好运！

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-8

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

特征相似度的成对距离计算（多维矩阵）

特征相似度的成对距离计算（多维矩阵）

成对相似度/相似度矩阵计算优化

用熊猫中的条件值计算行之间的成对相似度/距离

余弦相似度：函数无法计算矩阵

使用jaccard相似度的Python Pandas距离矩阵

使用熊猫更快地计算行之间的相似度/距离

计算两个矩阵的余弦相似度

高效地计算和存储相似度矩阵

使用R中的矩阵乘法计算逐行余弦相似度

如何将列表python计算为矩阵相似度

成对正弦距离计算

C ++中的成对距离计算

计算两个整数矩阵/数据帧的所有行之间的成对汉明距离

计算 2 个行向量的 cos 相似度，而不是所有成对的 cdists

numpy python：向量化距离函数以计算尺寸为（m，3）的2个矩阵的成对距离

使用预定义的距离/相似度矩阵进行R数据聚类

计算余弦相似度

计算帖子的相似度

计算余弦相似度

[访谈]相似词距离计算

八度pdist（成对距离）

计算两个配置文件之间的相似度以获取共同特征

如何计算直方图之间的相似度百分比（特征向量）

如何使用特征向量计算两个图像之间的相似度得分？

如何计算两个字符串列表之间的jaccard相似度距离

将成对距离转换为R中的距离矩阵

访问距离矩阵中的特定成对距离（scipy / numpy）

计算缺少值的scipy中的成对距离

成对L2距离计算的优化

使用TensorFlow进行成对距离计算