我有一个包含多个CSV表的文件(如下所示的示例)。该文件被上载到数据库。我想对该文件进行一些操作。为此,我正在考虑使用pandas通过read_csv函数将每个表读入一个单独的数据框。但是,在阅读文档时,我没有看到指定要读取/解析的行的子集的选项。这可能吗?如果没有,还有其他选择吗?
样本文件:
TABLE_1
col1,col2
val1,val2
val3,val4
TABLE_2
col1,col2,col3,col4
val1,val2,val3,val4
...
...
我可以对文件进行初始遍历以确定每个表的开始/结束行。但是,read_csv参数之一是“ filepath_or_buffer ”,但我不能完全确定“ buffer”部分是什么。它是字符串列表还是一个大字符串或其他东西?我可以使用什么缓冲区?有人可以指出一个使用read_csv和缓冲区的小例子吗?感谢您的任何想法。
更新:
如果要跳过特定的行[0,1,5,16,57,58,59]
,可以使用skiprows
:
df = pd.read_csv(filename, header=None,
names=['col1','col2','col3'], skiprows=[0,1,5,16,57,58,59])
要跳过前两行并阅读后100行,可以使用skiprows
和nrows
参数,如注释中提到的@Richard Telford:
df = pd.read_csv(filename, header=None, names=['col1','col2','col3'],
skiprows=2, nrows=100)
这是“缓冲区”的一个小例子:
import io
import pandas as pd
data = """\
Name
0 JP2015121
1 US14822
2 US14358
3 JP2015539
4 JP2015156
"""
df = pd.read_csv(io.StringIO(data), delim_whitespace=True, index_col=0)
print(df)
没有标题的情况相同:
data = """\
0 JP2015121
1 US14822
2 US14358
3 JP2015539
4 JP2015156
"""
df = pd.read_csv(io.StringIO(data), delim_whitespace=True, index_col=0,
header=None, names=['Name'])
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句