首先,是否有比使用sed和awk更好的命令行Linux处理从wget下载的HTML页面中的文本的方法?如果是这样,请告诉我或链接到doc。
其次,我对以下表达式感到困惑...因为^
从新行的开头开始搜索,为什么空格会gsub(/[^a-z]]*/, " ")
替换非字母字符,而逗号,
在这里又起什么作用?为何]
这种表达方式无与伦比?
对于HTML的处理,您需要描述您想对处理进行什么操作。
如果该^
字符不在字符类中,并且可以指示行的开头(例如,如果regex为/^[^a-z]/
),则该字符用作“行的开始” 。当它位于字符类(用方括号括起来[]
)中并且是第一个字符时,则它是一个元字符,表示“除以下字符外的所有字符”。
该gsub
函数是全局搜索和替换操作:
gsub(/[^a-z]]*/, " ")
意思是“用z代替任何不在az中的内容,然后用零个或多个接近的方括号替换为空白(双引号中的字符串" "
)。逗号是参数分隔符,用于将正则表达式参数与替换字符串参数分隔开。正则表达式中的第二个方括号令人惊讶;这很容易是一个错误。
由于该gsub
函数没有第三个参数,因此它将$0
在当前输入行上进行操作。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句