在抓取RSS
Feed中,我不想将重复的项目添加到我的列表中。问题是我的if title not in mylist
行未检测到某些重复项,因为它们略有不同。尽管如此,这两个新闻基本上是相同的。看看这两个。
"Kom igjen, norsk ungdom, de eldre trenger oss!"
和
"Kom igjen norsk ungdom, de eldre trenger oss"
如您所见,第一个没有逗号Kom igjen
,第二个没有逗号,结尾带有感叹号。
由于没有其他唯一的ID可以使单个项目变得唯一,因此我不知道如何检测上述重复项。
Python具有内置的SequenceMatcher:
from difflib import SequenceMatcher
SequenceMatcher(None, "Hello you!", "Hello you").ratio()
0.9473684210526315
SequenceMatcher(None, "Apple", "Orange").ratio()
0.18181818181818182
因此,您可以遍历所有内容并将比率与某个阈值进行比较。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句