我需要帮助解决问题。我需要一个给定站点的程序,该程序查找并提取“主要”图片,即代表该站点的图片。(要说这是最大的图片或第一张图片有时但并非总是如此)。
我应该如何处理?有没有什么图书馆可以帮到我呢?谢谢!
选项1
您可以结帐Goose。它的功能类似于Pocket and Readability的功能,即尝试使用一组试探法从给定的网页中提取主要文章。显然,它也可以从该文章中提取主图像,但是这有点麻烦,因此60%的时间每次都起作用。
它曾经是一个Java项目,但被重写为Scala。
从自述文件
鹅将尝试提取以下信息:
- 文章正文
- 文章的主要图片
- 文章中嵌入的所有Youtube / Vimeo电影
- 元描述
- 元标记
- 发布日期
在这里尝试:http : //jimplush.com/blog/goose
选项2
您可以使用Java包装程序(例如GhostDriver)来运行无头浏览器,例如PhantomJS。然后,获取网站并找到img
尺寸最大的元素。这个GhostDriver测试用例展示了如何在DOM中查询元素并获取其渲染大小。
选项3
使用类似jsoup的库来帮助您解析HTML。然后src
从所有img
标记的属性中获取值。要求您找到图像的每个URL并测量其大小。尺寸最大的图片可能是网站的主要图片。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句