Leveinshtein 和 hash - 找到一种导致相关性的散列算法(更近的距离)

c1377554

我正在寻找一种散列类算法,它不提供任何安全性,而是为字符串提供固定且不同的模式,这样可以使用 Leveinshtein 距离计算或任何距离度量来关联近似相似的字符串。

假设我有两个字符串“你好/朋友/我的?” 和“你好/朋友/我的”,我在python中计算没有和有哈希的距离(Levenshtein):

>>> import Levenshtein as lev
>>> Str1 = "hello/friend/my?"
>>> Str2 = "hello/friend/my"
>>> Distance = lev.distance(Str1.lower(),Str2.lower()),
>>> print(Distance)
>>> Ratio = lev.ratio(Str1.lower(),Str2.lower())
>>> print(Ratio)

(1,)

0.967741935483871

>>> Str1hash = hash(Str1)
>>> Str2hash = hash(Str2)
>>> Distance = lev.distance(str(Str1hash), str(Str2hash)),
>>> print(Distance)
>>> Ratio = lev.ratio(str(Str1hash), str(Str2hash))
>>> print(Ratio)

(16,)

0.41025641025641024

您可以看到在没有散列的情况下生成的值显示更近的距离 (1),而使用散列的距离太远 (16)。

我想找到一种散列类型的函数或算法,它可以返回相似字符串之间更近的距离和比率。有什么线索吗?

c1377554

我想要的解决方案是 LSH:https : //en.wikipedia.org/wiki/Locality-sensitive_hashing

它解决了我提出的问题。这是一种在信息检索中用于查找重复文档或网页的技术。因此,我可以使用它来比较我的两个字符串并获得它们的相似度索引。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

std :: hash算法和大小

来自分类Dev

URL hash 和 Redux state 的两种绑定方式

来自分类Dev

Redis HASH密钥和字段的可互换性如何?

来自分类Dev

Redis - 密钥 HASH 和 SET 和 ZSET 在 CrudRepository 保存上如何相关?

来自分类Dev

hash()和id()之间的区别

来自分类Dev

编辑距离算法的一种变体,仅跟踪替换和插入

来自分类Dev

为什么Hash#select和Hash#reject将密钥传递给一元块?

来自分类Dev

如何计算rollapply中几列和一列之间的滚动相关性?

来自分类Dev

Laravel hash :: make和hash :: check与auth类

来自分类Dev

找到一种算法来平衡成功率和成本

来自分类Dev

正确地将class_attribute和hash一起使用

来自分类Dev

webpack [hash]和[chunkhash]的目的是什么?

来自分类Dev

Swift的hash和hashValue之间的区别

来自分类Dev

Ruby在1.9和2.0中的`Hash。[]`

来自分类Dev

containsObject:isEqual和hash匹配时返回NO

来自分类Dev

hashCode():Objects.hash()和基类?

来自分类Dev

Ruby的Hash和ActiveSupport的HashWithIndifferentAccess之间的区别

来自分类Dev

git hash-object和git hash-object -t之间的SHA Hash差异

来自分类Dev

git hash-object和git hash-object -t之间的SHA Hash差异

来自分类Dev

CoreCLR中的Hash算法

来自分类Dev

变量和$ watch的AngularJS相关性

来自分类Dev

相关性和Solr分组

来自分类Dev

相关性和括号表示什么

来自分类Dev

用户定义的类:hash()和id()和doc

来自分类Dev

boost :: extension.hpp的原因未为无序容器和其他一些容器定义hash_value()

来自分类Dev

数据库性能中行数和列数之间的相关性

来自分类Dev

PHP:password_hash和hash_hmac有什么区别?

来自分类Dev

window.location.hash 和 location.hash 有什么区别?

来自分类Dev

如何关联和可视化一个变量与多个变量之间的相关性

Related 相关文章

  1. 1

    std :: hash算法和大小

  2. 2

    URL hash 和 Redux state 的两种绑定方式

  3. 3

    Redis HASH密钥和字段的可互换性如何?

  4. 4

    Redis - 密钥 HASH 和 SET 和 ZSET 在 CrudRepository 保存上如何相关?

  5. 5

    hash()和id()之间的区别

  6. 6

    编辑距离算法的一种变体,仅跟踪替换和插入

  7. 7

    为什么Hash#select和Hash#reject将密钥传递给一元块?

  8. 8

    如何计算rollapply中几列和一列之间的滚动相关性?

  9. 9

    Laravel hash :: make和hash :: check与auth类

  10. 10

    找到一种算法来平衡成功率和成本

  11. 11

    正确地将class_attribute和hash一起使用

  12. 12

    webpack [hash]和[chunkhash]的目的是什么?

  13. 13

    Swift的hash和hashValue之间的区别

  14. 14

    Ruby在1.9和2.0中的`Hash。[]`

  15. 15

    containsObject:isEqual和hash匹配时返回NO

  16. 16

    hashCode():Objects.hash()和基类?

  17. 17

    Ruby的Hash和ActiveSupport的HashWithIndifferentAccess之间的区别

  18. 18

    git hash-object和git hash-object -t之间的SHA Hash差异

  19. 19

    git hash-object和git hash-object -t之间的SHA Hash差异

  20. 20

    CoreCLR中的Hash算法

  21. 21

    变量和$ watch的AngularJS相关性

  22. 22

    相关性和Solr分组

  23. 23

    相关性和括号表示什么

  24. 24

    用户定义的类:hash()和id()和doc

  25. 25

    boost :: extension.hpp的原因未为无序容器和其他一些容器定义hash_value()

  26. 26

    数据库性能中行数和列数之间的相关性

  27. 27

    PHP:password_hash和hash_hmac有什么区别?

  28. 28

    window.location.hash 和 location.hash 有什么区别?

  29. 29

    如何关联和可视化一个变量与多个变量之间的相关性

热门标签

归档