TL;DR我需要将 BS4 结果集列表(单列)转换为 NxN 数组,但是如何?以及如何附加也是 BS4 结果集列表的标题?代码如下。谢谢!
所以我试图通过网络抓取体育数据,但是我在将结果集转换为 NxN 数组时遇到了问题。此外,我试图包括以相同方式刮取的标题。到目前为止,这是我的代码:
import requests
from bs4 import BeautifulSoup
from __future__ import print_function
import numpy as np
url=input("Paste player link and specific year ")
r= requests.get(url)
html_content=r.text
soup=BeautifulSoup(html_content,"lxml")
body = soup.body
table=body.table
tbody=table.tbody
headers = table.find_all("th")
statistics = tbody.find_all("td")
def string_stats():
for stat in statistics:
print (stat.string)
def string_headers():
for head in headers:
print (head.string)
string_stats_list = string_stats()
string_stats_list
这会产生一个只有 td 标签元素作为字符串的垂直列表(或者这就是目标)。
所以,我的问题是:如何将这个单列列表放入 NxN 数组/矩阵?另外,我怎样才能获得附加的标题?
感谢阅读和/或帮助!
import pandas as pd
import requests
from bs4 import BeautifulSoup
url='http://www.footballdb.com/players/mike-evans-evansmi03/gamelogs'
r= requests.get(url)
html_content=r.content
soup=BeautifulSoup(html_content,"lxml")
body = soup.body
table=body.table
headers = table.find_all("th")
headers_list = [i.text for i in headers]
string_stats_list = []
row = []
for i in table.select('tr')[1:]:
for j in i.select('td'):
row.append(j.text)
string_stats_list.append(row)
row = []
df = pd.DataFrame(data=string_stats_list, columns=headers_list)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句