我已经.data
从机器学习存储库下载了一个数据集 ( ) 并将其保存为cvs
文件。然后我使用pandas
以下方法阅读它:
dataset = pd.read_csv('mileage.csv')
打印如下:
但现在我需要将(命名)添加columns
到数据中,我试图这样做:
dataset = pd.read_csv('mileage.csv', names=["mpg", "cylinders", "displacement", "horsepower", "weight", "acceleration", "model year", "origin", "car name"])
然而,这会打印:
并且所有数据都被挤进一列......
我应该cvs
先在数据中添加“逗号”吗?
如何正确预处理这些数据,每列的每个数据?
您可以使用assign
来初始化新列。看起来有些列已经在原始数据中,所以我将使用条件字典理解来只获取新的列。
new_cols = ["mpg", "cylinders", "displacement", "horsepower", "weight", "acceleration", "model year", "origin", "car name"]
dataset = pd.read_csv('mileage.csv')
dataset = dataset.assign(**{c: None for c in new_cols if c not in dataset})
直接访问一些示例数据:
import urllib2
url = 'https://raw.githubusercontent.com/chrisjameskirkham/car-mpg/master/auto-mpg-nameless.csv'
response = urllib2.urlopen(url)
dataset = pd.read_csv(response).assign(**{c: None for c in new_cols if c not in dataset})
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句