使用python 2.7和beautifulsoup 4进行网站抓取

戈兰

我在用beautifulsoup抓取网站“ http://www.queensbronxba.com/directory/时陷入了困境我几乎完成了抓取,我只从段落标签中找到的列表中留下了公司名称。问题是在同一个 div 中有更多的段落标签,但我只需要第一个,因为它给出了公司名称。所以我需要关于以下 div 的第一段也不仅仅是在第一个。这是我用来 srcape 的代码:

page = requests.get("http://www.queensbronxba.com/directory/")  
soup = BeautifulSoup(page.content, 'html.parser')  
company = soup.find(class_="boardMemberWrap")  
contact = company.find_all(class_="boardMember")  
info = contact[0]
print(info.prettify())

name_tags = company.select("h4")  
names = [nt.get_text() for nt in company_tags]  
names

company_tags = company.select("p")  #here I need help to get only first paragraphs of following div containers  
companies = [ct.get_text() for ct in company_tags]  
companies

phone_tags = company.select('a[href^="tel"]')  
phones = [pt.get_text() for pt in phone_tags]  
phones

email_tags = company.select('a[href^="mailto"]')  
emails = [et.get_text() for et in email_tags]  
emails
戈兰
import requests
from bs4 import BeautifulSoup

page = requests.get("http://www.queensbronxba.com/directory/")
soup = BeautifulSoup(page.content, 'html.parser')  
company = soup.find(class_="boardMemberWrap")  
contact = company.findAll(class_="boardMemberInfo")
info = contact[0]
print(info.prettify())


name_tags = company.select("h4")
names = [nt.get_text() for nt in name_tags]
print(names)


for name in company.findAll(class_="boardMember"):
    for n in name.findAll('p')[:1]:
    print(n.text)


phone_tags = company.select('a[href^="tel"]')  
phones = [pt.get_text() for pt in phone_tags]  
print(phones)


email_tags = company.select('a[href^="mailto"]')  
emails = [et.get_text() for et in email_tags]  
print(emails)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用python和BeautifulSoup进行网络抓取

来自分类Dev

Python - 使用 BeautifulSoup 和 Urllib 进行抓取

来自分类Dev

如何使用python和beautifulsoup4循环抓取网站中多个页面的数据

来自分类Dev

使用python和beautifulsoup抓取多页网站

来自分类Dev

从使用Python使用AJAX分页的网站上使用BeautifulSoup进行抓取

来自分类Dev

使用 python 和 bs4 进行网页抓取

来自分类Dev

使用Beautifulsoup和Python进行Web抓取不起作用

来自分类Dev

在python 3.6中使用beautifulsoup4抓取网站以获取产品信息时

来自分类Dev

使用BeautifulSoup抓取特定网站

来自分类Dev

使用Selenium和BeautifulSoup输入内容来抓取网站?

来自分类Dev

使用python从.aspx网站进行网页抓取

来自分类Dev

使用Python,BeautifulSoup进行Web抓取

来自分类Dev

使用 BeautifulSoup 进行网页抓取 -- Python

来自分类Dev

使用 Python BeautifulSoup 进行网页抓取

来自分类Dev

使用Python / BeautifulSoup进行Web抓取:具有指向个人资料的多个链接的网站>需要个人资料内容

来自分类Dev

使用Python和beautifulsoup进行Web抓取:BeautifulSoup函数可以保存什么?

来自分类Dev

如何使用BeautifulSoup和Python抓取页面?

来自分类Dev

使用 Beautifulsoup 和 Python 抓取复杂的表格

来自分类Dev

使用 Python 和 BeautifulSoup 抓取 alt 标签

来自分类Dev

使用来自 AJAX 网站的 selenium 和 beautifulsoup 在 python 中抓取图像

来自分类Dev

如何使用python使用bs4进行网络抓取和访问<script>

来自分类Dev

使用python中的BeautifulSoup从网站抓取报告

来自分类Dev

使用BeautifulSoup网站抓取IMDb页面

来自分类Dev

使用BeautifulSoup 4.8.2从网站抓取表格

来自分类Dev

使用 BeautifulSoup 从网站抓取数据的问题

来自分类Dev

无法使用beautifulsoup抓取日本网站

来自分类Dev

使用python,BeautifulSoup和pandas'read_html'进行网页抓取的问题

来自分类Dev

使用BeautifulSoup使用python进行网络抓取,发现错误

来自分类Dev

通过登录网站进行python网络抓取

Related 相关文章

  1. 1

    使用python和BeautifulSoup进行网络抓取

  2. 2

    Python - 使用 BeautifulSoup 和 Urllib 进行抓取

  3. 3

    如何使用python和beautifulsoup4循环抓取网站中多个页面的数据

  4. 4

    使用python和beautifulsoup抓取多页网站

  5. 5

    从使用Python使用AJAX分页的网站上使用BeautifulSoup进行抓取

  6. 6

    使用 python 和 bs4 进行网页抓取

  7. 7

    使用Beautifulsoup和Python进行Web抓取不起作用

  8. 8

    在python 3.6中使用beautifulsoup4抓取网站以获取产品信息时

  9. 9

    使用BeautifulSoup抓取特定网站

  10. 10

    使用Selenium和BeautifulSoup输入内容来抓取网站?

  11. 11

    使用python从.aspx网站进行网页抓取

  12. 12

    使用Python,BeautifulSoup进行Web抓取

  13. 13

    使用 BeautifulSoup 进行网页抓取 -- Python

  14. 14

    使用 Python BeautifulSoup 进行网页抓取

  15. 15

    使用Python / BeautifulSoup进行Web抓取:具有指向个人资料的多个链接的网站>需要个人资料内容

  16. 16

    使用Python和beautifulsoup进行Web抓取:BeautifulSoup函数可以保存什么?

  17. 17

    如何使用BeautifulSoup和Python抓取页面?

  18. 18

    使用 Beautifulsoup 和 Python 抓取复杂的表格

  19. 19

    使用 Python 和 BeautifulSoup 抓取 alt 标签

  20. 20

    使用来自 AJAX 网站的 selenium 和 beautifulsoup 在 python 中抓取图像

  21. 21

    如何使用python使用bs4进行网络抓取和访问<script>

  22. 22

    使用python中的BeautifulSoup从网站抓取报告

  23. 23

    使用BeautifulSoup网站抓取IMDb页面

  24. 24

    使用BeautifulSoup 4.8.2从网站抓取表格

  25. 25

    使用 BeautifulSoup 从网站抓取数据的问题

  26. 26

    无法使用beautifulsoup抓取日本网站

  27. 27

    使用python,BeautifulSoup和pandas'read_html'进行网页抓取的问题

  28. 28

    使用BeautifulSoup使用python进行网络抓取,发现错误

  29. 29

    通过登录网站进行python网络抓取

热门标签

归档