我正在尝试定位bs4
没有相关标签的日期。
HTML的结构为:
<div class="story-postdate">
<div class="label-inline">Published</div>
Feb 6, 2020, 4:40 pm SGT
</div>
我尝试过.findAll(attrs={'class' : 'story-postdate'})
,然后尝试使用sibling
选择器。但是没有喜悦。
我还尝试将其定位.text
在CSS选择器的末尾。但这仍然返回一个无对象类型。
尝试这个
from bs4 import BeautifulSoup
from simplified_scrapy import SimplifiedDoc
html = """<div class="story-postdate">
<div class="label-inline">Published</div>
Feb 6, 2020, 4:40 pm SGT
</div>"""
# using BeautifulSoup
soup = BeautifulSoup(html,features='lxml')
print (soup.find('div',attrs={'class' : 'story-postdate'}).div.next_sibling)
# using SimplifiedDoc
doc = SimplifiedDoc(html)
print (doc.select('div.story-postdate>div').nextText())
以下是SimplifiedDoc库的更多示例:https : //github.com/yiyedata/simplified-scrapy-demo/tree/master/doc_examples
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句