我试图将具有大量重复项的数据框减少为每个特定条目只有一次的数据框,但是使用一个称为“计数器”的变量来减少此变量在数据框中的出现频率。现在我在使用正则表达式时遇到了麻烦。
length(grep(kh$gem[124],kh$gem))
计算kh$gem[124]
数据帧中的频率。问题是
> kh$gem[124]
[1] "Salzburg"
和
> grep(kh$gem[124],kh$gem)
[1] 120 124 125 126 127 128 134 141 144 146 148
但是,如果我研究这些变量,则确实有一些“匹配” regexp的变量,但与我要搜索的变量不完全相同。
> kh$gem[c(120,124,125,126,127,128,134,141,144,146,148)]
[1] "Oberndorf bei Salzburg" "Salzburg" "Salzburg" "Salzburg"
[5] "Salzburg" "Salzburg" "Salzburg" "Salzburg"
[9] "Salzburg" "Oberndorf bei Salzburg" "Salzburg"
我该如何消除那些“萨尔茨堡州立大学”?
感谢帮助。最好的祝福!
添加锚点。
grep(paste0("^" , kh$gem[124] , "$"),kh$gem)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句