我正在尝试从Trip Advisor网站上抓取一些客户评论。对于某些评论,我可以毫无问题地进行抓取,但对于其他评论,我则不能正确地进行抓取。它只是给我一个空白。有人可以帮忙吗?下面是我的简化代码。
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
b_link="https://www.tripadvisor.com/ShowUserReviews-g60607-d1468361-r460991443-Ohana_House_Volcano_s_Popular_Rainforest_Retreat-Volcano_Island_of_Hawaii_Hawaii.html"
links_open_b=urlopen(b_link)
soup_b=BeautifulSoup(links_open_b,"html.parser")
first_text_b=soup_b.find_all("div", class_="entry vrReviewText")
actual_text_b=first_text_b[0].text
actual_text_b=re.sub('\s+',' ',actual_text_b)
print (actual_text_b)
我能得到什么:
Just an empty white space.
我想要得到的是:Volcano的Ohana房子对于我们的家庭和我们在大岛呆5天绝对是完美的选择。...我们在访问的各个方面都度过了愉快的时光,并强烈建议将这座房子推荐给任何想要探索大岛东部的人。
该评论实际上是通过加载的
https://www.tripadvisor.com/UserReviewController?a=fullTrans&r=460991443
要获得评论,可以使用以下requests
模块:
import requests
URL = "https://www.tripadvisor.com/UserReviewController?a=fullTrans&r=460991443"
response = requests.get(URL).json()
print(response[0]["body"])
输出:
The Ohana house at Volcano ... side of the Big Island.
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句