我正在学习刮y。我使用的是草率的0.20,这就是为什么我遵循本教程的原因。http://doc.scrapy.org/en/0.20/intro/tutorial.html
我理解了这些概念。但是,我还有一件事。
在此声明中
sel.xpath('//title/text()').re('(\w+):')
输出是
[u'Computers', u'Programming', u'Languages', u'Python']
什么是:重( '(\ w +)')使用吗?
这个说法
sel.xpath('//title/text()').extract()
具有以下输出:
[u'Open Directory - Computers: Programming: Languages: Python: Books']
为什么,
在元素之间添加逗号?同样,所有的':'也将被删除。
此外:这是python的纯语法吗?
这是一个正则表达式(regex),本身就是一个世界。
(\ w +):将返回以冒号结尾的所有文本(但不返回冒号)这是删除“:”的示例
(\ w + :)将返回任何以冒号结尾的文本(并且还将返回冒号)这是一个示例,说明了如何使用“:”
另外,如果您想了解正则表达式,Codecademy有很好的python课程
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句