我试图用小号废话Ÿ使Web刮但我遇到了许多问题,因为它使用Python2。是否可以同时对tarball中的所有文件运行2to3命令?这会导致无法预料的错误吗?是否有替代的Web刮板框架,它是最新的,更实用的,还是可以推荐使用?
我之所以这么说,是因为关于运行scrapy 0.24版本所固有的问题,表单上似乎没有太多活动,也就是说,它是用python 2编写的。
如果scrapy是最佳选择,而移植则不是一个好主意,那么在面向python3的机器上运行它的最佳方法是什么?一个仅使用python 2或其他可以在配置文件中更改的命令来运行它。
更新
如果遇到此类问题,您需要做的是:
只需使用运行setup.py
脚本python2
,即
python2 setup.py install
然后您就可以开始工作了,这很好。
^如@alecxe所示
移植Scrapy
到Python 3的问题在于它Scrapy
是内置在twisted
事件驱动框架之上的,该框架目前尚不存在。
没有像Scrapy
Python 3一样强大和成熟的网络抓取框架。虽然pyspider
看起来很有希望,但是有点不同,请参阅:
此外,还有其他与网络抓取和html解析有关的库,它们支持Python 3:
beautifulsoup4
lxml
requests
MechanicalSoup
(建立在requests
和之上BeautifulSoup
)selenium
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句