如何从Google搜索请求中的cite标签返回完整链接

伊泰·利夫尼(Itay Livni)

我在下面成功运行了该脚本,该脚本返回基于cite标签的搜索链接列表不幸的是,某些返回的链接已压缩。例如:www.intel.com/.../i-o-controller-hub-8-9-10-82566-82567-82562v-software- dev-manual.pdf有没有办法返回完整链接?

import urllib
from bs4 import BeautifulSoup

opener = urllib.request.build_opener()
opener.addheaders = []
num_pages = 2

search_query = 'algorithm+encoding+desirable+character+signal+64-bit+communication+binary+propert'

for start in range(0, num_pages):
    url = 'http://www.google.com/search?q='+ search_query + '&start=' + str(start*num_pages)

    page = opener.open(url)
    soup = BeautifulSoup(page, "lxml")

    for cite in soup.findAll('cite'):
         print(cite.text)

是否有设置或更好的方法来从Google获取搜索链接?

提前致谢

热心

除了搜索<cite>元素之外,还可以<h3>使用class来获取所有s r然后,您可以抓取其中的<a>标签,并获取锚点的href,如下所示:

for link in soup.find_all('h3', class_='r'):
    print(link.a['href'][7:])

拼接([7:])是因为每个网址都以url开头,/url?q=因此Google可以跟踪它们。您的最终解决方案将如下所示

import urllib
from bs4 import BeautifulSoup

opener = urllib.request.build_opener()
opener.addheaders = []
num_pages = 2

search_query = 'algorithm+encoding+desirable+character+signal+64-bit+communication+binary+propert'

for start in range(0, num_pages):
    url = 'http://www.google.com/search?q='+ search_query + '&start=' + str(start*num_pages)

    page = opener.open(url)
    soup = BeautifulSoup(page, "lxml")

    for link in soup.find_all('h3', class_='r'):
        print(link.a['href'][7:])

        text = link.a['href'][7:]
        head, sep, tail = text.partition('&sa')
        print(head)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用 javscript 在 get 请求的响应中搜索 html 标签?

来自分类Dev

如何在Node.js中的单个请求中运行Google Vision API标签检测和安全搜索检测?

来自分类Dev

当我从Python中的Google搜索查询中提取链接时,我无法返回HTML链接

来自分类Dev

Google搜索结果中PDF的完整URL

来自分类Dev

如何通过链接请求请求过滤GitHub问题搜索?

来自分类Dev

Google的Vision API是否会返回完整的潜在标签列表?

来自分类Dev

如何从Django请求中获取完整的URL

来自分类Dev

HTML:如何在Google搜索中获取子链接和搜索框显示

来自分类Dev

如何在链接列表中搜索特定的字符串并返回该值?

来自分类Dev

Google表格中的动态标签页链接

来自分类Dev

如何返回darcs中的标签?

来自分类Dev

必应搜索链接到Google表格中的基础链接

来自分类Dev

使用 Python,如何从 Google 搜索中抓取链接的描述性文本?

来自分类Dev

如何使用Selenium(Python)进行Google搜索,然后在新标签页中打开首页的结果?

来自分类Dev

如何在Chrome 33的新标签页中删除Google搜索和较小的图块?

来自分类Dev

如何在Chrome的“新标签页”中更改Google搜索域?

来自分类Dev

如何在OpenStreetMap中搜索标签?

来自分类Dev

如何从选择的标签导轨中搜索数据

来自分类Dev

Google Analytics(分析):如何跟踪在新标签页中打开的出站链接?

来自分类Dev

Google Analytics(分析):如何跟踪在新标签页中打开的出站链接?

来自分类Dev

如何替换适当的href标签中的链接

来自分类Dev

如何从标签中获取href链接?

来自分类Dev

如何给按钮链接到标签中的文本

来自分类Dev

如何从Django的链接标签中获取数据?

来自分类Dev

Google Developers:如何通过“网络”标签中的请求方法(例如POST)进行过滤?

来自分类Dev

Google Developers:如何通过“网络”标签中的请求方法(例如POST)进行过滤?

来自分类Dev

如何在 Google 标签管理器中通过 JavaScript 发送 MailChimp API 请求?

来自分类Dev

如何点击所有产品链接,搜索元素并返回。

来自分类Dev

如何在标签中显示GET请求

Related 相关文章

  1. 1

    如何使用 javscript 在 get 请求的响应中搜索 html 标签?

  2. 2

    如何在Node.js中的单个请求中运行Google Vision API标签检测和安全搜索检测?

  3. 3

    当我从Python中的Google搜索查询中提取链接时,我无法返回HTML链接

  4. 4

    Google搜索结果中PDF的完整URL

  5. 5

    如何通过链接请求请求过滤GitHub问题搜索?

  6. 6

    Google的Vision API是否会返回完整的潜在标签列表?

  7. 7

    如何从Django请求中获取完整的URL

  8. 8

    HTML:如何在Google搜索中获取子链接和搜索框显示

  9. 9

    如何在链接列表中搜索特定的字符串并返回该值?

  10. 10

    Google表格中的动态标签页链接

  11. 11

    如何返回darcs中的标签?

  12. 12

    必应搜索链接到Google表格中的基础链接

  13. 13

    使用 Python,如何从 Google 搜索中抓取链接的描述性文本?

  14. 14

    如何使用Selenium(Python)进行Google搜索,然后在新标签页中打开首页的结果?

  15. 15

    如何在Chrome 33的新标签页中删除Google搜索和较小的图块?

  16. 16

    如何在Chrome的“新标签页”中更改Google搜索域?

  17. 17

    如何在OpenStreetMap中搜索标签?

  18. 18

    如何从选择的标签导轨中搜索数据

  19. 19

    Google Analytics(分析):如何跟踪在新标签页中打开的出站链接?

  20. 20

    Google Analytics(分析):如何跟踪在新标签页中打开的出站链接?

  21. 21

    如何替换适当的href标签中的链接

  22. 22

    如何从标签中获取href链接?

  23. 23

    如何给按钮链接到标签中的文本

  24. 24

    如何从Django的链接标签中获取数据?

  25. 25

    Google Developers:如何通过“网络”标签中的请求方法(例如POST)进行过滤?

  26. 26

    Google Developers:如何通过“网络”标签中的请求方法(例如POST)进行过滤?

  27. 27

    如何在 Google 标签管理器中通过 JavaScript 发送 MailChimp API 请求?

  28. 28

    如何点击所有产品链接,搜索元素并返回。

  29. 29

    如何在标签中显示GET请求

热门标签

归档