搜索

搜索

使用xpath抓取时，我该怎么办？

debugcn 发表于 Dev

18

rapping_overFlow

我一直在使用python3.8及其module-urllib。

我的目标是获取文字

“”“为5000万用户打造的Dapps-关于ICON的8种情况”“”

从下面的HTML。

<div class="article-sec" data-v-727113bd="">
 <div data-v-3b154919="" data-v-727113bd="" class="item item">
  <a data-v-3b154919="" href="/article/dapp-com-list-icon" target="_blank">
    <div data-v-3b154919="" class="image" style="background-image: url(&quot;https://dappimg.com/media/image/article/1fe42da2f8ca44dab2884690624ecfa7.jpg&quot;);"></div>
    <div data-v-3b154919="" class="combine-info">
      <div data-v-3b154919="" class="name">Dapps Built for 50 Million Users - 8 Cases You Should Know about ICON</div>
    </div>
    <div data-v-3b154919="" class="time">Mar 18 · 1220 Views</div>
  </a>
 </div>

xpath-1 : xpath('//div[@class="article-sec"]')
xpath-2 : xpath('//div[@class="article-sec"]/div')

'xpath-1'给了我一个元素。但是“ xpath-2”没有任何结果。

最想要的问题是我如何获取文字？

第二个问题是，为什么“ xpath-2”不给我结果？

这是网址：https : //www.dapp.com/community

谢谢大家提前回答。

XML数据

维斯特

您必须更深入地获取文本。如果您只想要第一个标题：

(//div[@class="article-sec"]//div[@class="name"])[1]/text()

如果您想要所有标题：

//div[@class="article-sec"]//div[@class="name"][1]/text()

编辑：没有硒，在R中，您可以执行以下操作：

library(RCurl)
library(XML)
library(stringr)
page=getURL("https://www.dapp.com/community")
parse=htmlParse(page)
titles=xpathSApply(parse,"//div[@id='__nuxt']/following::script[@type]",xmlValue)
result=unlist(str_extract_all(gsub(',"influencers.*','',titles),'(?<="title":").+?(?=")'))

输出：

否则，只需获取网页脚本标签（类型= text / javascript）中的json并使用适当的工具对其进行解析：

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-2

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

使用ping时收到DUP。我该怎么办？

来自分类Dev

我该怎么办呢？该怎么办？

来自分类Dev

网页抓取该怎么办？

来自分类Dev

删除实体时我该怎么办？MySQLIntegrityConstraintViolationException

来自分类Dev

删除实体时我该怎么办？MySQLIntegrityConstraintViolationException

来自分类Dev

当我使用带有重音字母的std :: isupper（）时该怎么办

来自分类Dev

通过dexplore使用数据库预览时，我该怎么办？

来自分类Dev

要使用FDE +好的键盘，我该怎么办？

来自分类Dev

Raspberry Pi我该怎么办？

来自分类Dev

意外升级，我该怎么办？

来自分类Dev

我该怎么办？教义关系

来自分类Dev

日期计数，我该怎么办？

来自分类Dev

屏幕关闭时该怎么办？

来自分类Dev

UPS过载时该怎么办？

来自分类Dev

桌面冻结时该怎么办？

来自分类Dev

当列是数组时，该怎么办？

来自分类Dev

如果我的所有 PHP 页面在使用 Apache2 时都是空白的，我该怎么办？

来自分类Dev

当我渴望在Haskell中使用对象样式多态消息传递时该怎么办？

来自分类Dev

当DefinitelyTyped类型定义用于比我想要的新版本时该怎么办？

来自分类Dev

如果HTML不是编程语言，那么我在执行HTML代码时该怎么办？

来自分类Dev

在MPI中未知发送消息的数量时，我该怎么办？

来自分类Dev

当有人取消引用我的end（）迭代器时该怎么办？

来自分类Dev

分配新向量时std :: bad_alloc-我该怎么办

来自分类Dev

安装下载的更新时，Update Manager卡住（但未冻结）。我该怎么办？

来自分类Dev

当我在Python或IPython控制台中时，返回输出该怎么办？

来自分类Dev

当我从相机捕获图像时，图像质量下降了吗？该怎么办？

来自分类Dev

我想用身份验证插件分离模型时该怎么办？

来自分类Dev

当我超过python pong的instancecheck中的最大递归深度时，该怎么办？

来自分类Dev

安装下载的更新时，Update Manager卡住（但未冻结）。我该怎么办？

Related 相关文章

文章

热门标签

归档