如何使用python从beautifulsoup输出中删除所有对齐和缩进?

休西

我正在尝试从HTML URL的许多不同表中获取信息,而没有任何HTML缩进/制表符格式。我使用get_text生成所需的内容,但是它打印出很多空白和制表符。我已经尝试过.strip,但是并没有实现我想要的功能。

这是我正在使用的python脚本:

import csv, simplejson, urllib,
url="http://www.thecomedystudio.com/schedule.html"
response=urllib.urlopen(url)
from bs4 import BeautifulSoup
html = response
soup = BeautifulSoup(html.read())
text = soup.get_text()
print text

最后,我想创建事件日历的csv,但首先我想创建一个.txt或不需要太多手动清理的内容。

任何帮助表示赞赏。

ec

您无需“清理” HTML即可解析BeautifulSoup

只需将日期和事件直接解析为csv文件即可:

import csv
from urllib2 import urlopen

from bs4 import BeautifulSoup


url = "http://www.thecomedystudio.com/schedule.html"
soup = BeautifulSoup(urlopen(url))

with open('output.csv', 'wb') as f:
    writer = csv.writer(f)

    for item in soup.select('td div[align=center] > b'):
        date = ' '.join(el.strip() for el in item.find_all(text=True))
        event = item.parent.parent.find_next_sibling('td').get_text(strip=True)

        writer.writerow([date, event])

output.csv运行脚本后的内容如下

Fri 2.27.15,"Rick Canavan hosts with Christine An, Rachel Bloom, Dan Crohn, Wes Hazard, James Huessy, Kelly MacFarland, Peter Martin, Ted Pettingell."
Sat 2.28.15,"Rick Jenkins hosts Taylor Connelly, Lilian DeVane, Andrew Durso, Nate Johnson, Peter Martin, Andrew Mayer, Kofi Thomas, Tim Willis."
Sun 3.1.15,"Peter Martin hosts Sunday Funnies with Nonye Brown-West, Ryan Donahue, Joe Kozlowski, Casey Malone, Etrane Martinez, Kwasi Mensah, Anthony Zonfrelli, Christa Weiss and Sam Jay closing."
Tue 3.3.15,Mystery Lounge! The old-est and only-est magic show in New England! with guest comedian Ryan Donahue.
...
Thu 12.31.15,"New Year's Eve! with Rick Jenkins, Nathan Burke."
Fri 1.1.16,Rick Canavan hosts New Year's Day.

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用python从beautifulsoup输出中删除所有对齐和缩进?

来自分类Dev

使用BeautifulSoup或re从类的所有<div>标记中删除所有<u>和<a>标记

来自分类Dev

Python 输出:如何删除新行的缩进?

来自分类Dev

如何使用python和BeautifulSoup从xml中删除完整元素

来自分类Dev

如何从Grunt输出中删除所有颜色信息?

来自分类Dev

如何使用Python Selenium和BeautifulSoup从网络上刮掉所有<li>文本?

来自分类Dev

如何删除BeautifulSoup输出中的多余空间

来自分类Dev

如何缩进多行输出的输出(例如摘要),使用print或cat并保持列对齐?

来自分类Dev

如何在Python中使用Beautifulsoup在div中查找所有锚标签

来自分类Dev

python - 如何使用beautifulsoup在网页中的某个文本之前获取所有<p>标签?

来自分类Dev

如何使用所有正确的缩进和所有内容漂亮地格式化JSON文件?

来自分类Dev

如何使用python中的sh库删除目录中带有*的所有文件?

来自分类Dev

如何使用BeautifulSoup提取表中的所有元素?

来自分类Dev

使用Python中的BeautifulSoup完全加载所有产品

来自分类Dev

如何在字符串中的所有行中都使用bash“吃”缩进字符?

来自分类Dev

如何在Python中删除所有前导和尾随标点符号?

来自分类Dev

如何使用PowerShell从文件夹和所有子文件夹中删除所有访问规则?

来自分类Dev

如何使用PowerShell从文件夹和所有子文件夹中删除所有访问规则?

来自分类Dev

如何使用Jsoup从html元素中删除所有内联样式和其他属性?

来自分类Dev

如何使用RegExp从文本中删除除ä,ö和ü以外的所有非单词字符

来自分类Dev

如何使用RegEx删除[[和]]中内容以外的所有内容?

来自分类Dev

如何使用Jsoup从html元素中删除所有内联样式和其他属性?

来自分类Dev

使用Python和PyMongo从所有MongoDB文档中删除属性

来自分类Dev

如何“删除” Word 2010中的所有标题和标题?

来自分类Dev

钛| 如何缩进所有代码(在Mac中)

来自分类Dev

如何使用Ruby中的循环输出所有可能的组合?

来自分类Dev

如何在所有模式下在emacs中获得自动缩进(不是智能缩进)

来自分类Dev

如何在所有模式下在emacs中获得自动缩进(不是智能缩进)

来自分类Dev

如何在yasnippet中为python模式删除行的缩进?

Related 相关文章

  1. 1

    如何使用python从beautifulsoup输出中删除所有对齐和缩进?

  2. 2

    使用BeautifulSoup或re从类的所有<div>标记中删除所有<u>和<a>标记

  3. 3

    Python 输出:如何删除新行的缩进?

  4. 4

    如何使用python和BeautifulSoup从xml中删除完整元素

  5. 5

    如何从Grunt输出中删除所有颜色信息?

  6. 6

    如何使用Python Selenium和BeautifulSoup从网络上刮掉所有<li>文本?

  7. 7

    如何删除BeautifulSoup输出中的多余空间

  8. 8

    如何缩进多行输出的输出(例如摘要),使用print或cat并保持列对齐?

  9. 9

    如何在Python中使用Beautifulsoup在div中查找所有锚标签

  10. 10

    python - 如何使用beautifulsoup在网页中的某个文本之前获取所有<p>标签?

  11. 11

    如何使用所有正确的缩进和所有内容漂亮地格式化JSON文件?

  12. 12

    如何使用python中的sh库删除目录中带有*的所有文件?

  13. 13

    如何使用BeautifulSoup提取表中的所有元素?

  14. 14

    使用Python中的BeautifulSoup完全加载所有产品

  15. 15

    如何在字符串中的所有行中都使用bash“吃”缩进字符?

  16. 16

    如何在Python中删除所有前导和尾随标点符号?

  17. 17

    如何使用PowerShell从文件夹和所有子文件夹中删除所有访问规则?

  18. 18

    如何使用PowerShell从文件夹和所有子文件夹中删除所有访问规则?

  19. 19

    如何使用Jsoup从html元素中删除所有内联样式和其他属性?

  20. 20

    如何使用RegExp从文本中删除除ä,ö和ü以外的所有非单词字符

  21. 21

    如何使用RegEx删除[[和]]中内容以外的所有内容?

  22. 22

    如何使用Jsoup从html元素中删除所有内联样式和其他属性?

  23. 23

    使用Python和PyMongo从所有MongoDB文档中删除属性

  24. 24

    如何“删除” Word 2010中的所有标题和标题?

  25. 25

    钛| 如何缩进所有代码(在Mac中)

  26. 26

    如何使用Ruby中的循环输出所有可能的组合?

  27. 27

    如何在所有模式下在emacs中获得自动缩进(不是智能缩进)

  28. 28

    如何在所有模式下在emacs中获得自动缩进(不是智能缩进)

  29. 29

    如何在yasnippet中为python模式删除行的缩进?

热门标签

归档