Webcrawler BeautifulSoup-如何从没有类标签的链接中获取标题

字母猴子

我正在尝试从中收集数据的网站是http://www.boxofficemojo.com/yearly/chart/?yr=2015&p=.htm现在,我想在此页面上获得电影的所有标题,然后再移至每个链接中的其余数据(工作室等)和其他数据。这是我到目前为止所拥有的:

import requests
from bs4 import BeautifulSoup
from urllib2 import urlopen

def trade_spider(max_pages):
    page = 0
    while page <= max_pages:
        url = 'http://www.boxofficemojo.com/yearly/chart/?page=' + str(page) + '&view=releasedate&view2=domestic&yr=2015&p=.htm'
        source_code = requests.get(url)
        plain_text = source_code.text
        soup = BeautifulSoup(plain_text)
        for link in soup.findAll('a', {'div':'body'}):
            href = 'http://www.boxofficemojo.com' + link.get('href')
            title = link.string
            print title
            get_single_item_data(href)
        page += 1

def get_single_item_data(item_url):
    source_code = requests.get(item_url)
    plain_text = source_code.text
    soup = BeautifulSoup(plain_text)
    for item_name in soup.findAll('section', {'id':'postingbody'}):
        print item_name.text

trade_spider(1)

我遇到麻烦的是

for soup.findAll('a',{'div':'body'})中的链接:

href =' http ://www.boxofficemojo.com'+ link.get('href')

问题在于该网站上没有所有链接都属于其中的识别类。链接仅带有“ <ahref>”标签。

如何获得此页面上链接的所有标题?

har07

一种可能的方法是使用.select()接受CSS选择器参数的方法:

for link in soup.select('td > b > font > a[href^=/movies/?]'):
    ......
    ......

有关使用CSS选择器的简要说明:

  • td > b:查找所有td元素,然后从每个元素中td查找直接子b元素
  • > font:从过滤的b元素中查找直接子font元素
  • > a[href^=/movies/?]:从过滤的font元素中返回a具有href属性值开头的直接子元素"/movies/?"

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Go中的Webcrawler

来自分类Dev

Python BeautifulSoup4 WebCrawler .findAll() 不解析

来自分类Dev

crawler4j中WebCrawler的参数

来自分类Dev

crawler4j中WebCrawler的参数

来自分类Dev

尝试使用BeautifulSoup从没有API的站点获取数据

来自分类Dev

Ruby-WebCrawler如何访问找到的链接的链接?

来自分类Dev

没有类或标签的BeautifulSoup

来自分类Dev

从列表理解中获取 beautifulsoup 标签中的所有链接

来自分类Dev

使用BeautifulSoup获取没有标签的文本

来自分类Dev

使用BeautifulSoup获取没有标签的文本?

来自分类Dev

如何使用python webcrawler获取HTML子类的文本?输出似乎是一个空数组

来自分类Dev

如何从没有标签的HTML字符串中获取数字?

来自分类Dev

如何从没有索引的列中获取数据

来自分类Dev

如何从没有ID的表中获取行

来自分类Dev

如何下载Beautifulsoup中没有链接的excel文件?

来自分类Dev

如何在BeautifulSoup中获取没有特定标签的文本?

来自分类Dev

使用beautifulsoup在标题标签内找到链接

来自分类Dev

使用beautifulsoup在标题标签内查找链接

来自分类Dev

如何在BeautifulSoup中从onclickvalue获取链接?

来自分类Dev

Beautifulsoup:如何从列表中获取某些链接?

来自分类Dev

如何从BeautifulSoup中的span标签获取文本

来自分类Dev

如何从页面获取链接-BeautifulSoup

来自分类Dev

BeautifulSoup获取文本链接?

来自分类Dev

python beautifulsoup解析'a'标签和href时没有链接

来自分类Dev

Beautifulsoup 中的复合标签

来自分类Dev

无法从没有标题名称的 Json 列表中获取对象

来自分类Dev

Beautifulsoup没有img

来自分类Dev

从没有类或ID的元素中抓取链接-Casperjs

来自分类Dev

BeautifulSoup 没有显示标签中的所有元素

Related 相关文章

热门标签

归档