索引编制是否使Sliced Pandas数据帧更快？

rkjt50r983 发表于 Dev

rkjt50r983

我有一个熊猫数据框，其中包含超过一百万条记录。它的列之一是日期时间。我的数据样本如下所示：

time,x,y,z
2015-05-01 10:00:00,111,222,333
2015-05-01 10:00:03,112,223,334
...

我需要在特定时期内有效地获得记录。下面的幼稚方式非常耗时。

new_df = df[(df["time"] > start_time) & (df["time"] < end_time)]

我知道在像MySQL这样的DBMS上，通过指定时间段来按时间字段建立索引对于获取记录很有效。

我的问题是

像这样的大熊猫索引df.index = df.time会加快切片过程吗？
如果问题1的答案为“否”，那么在特定时间段内获得大熊猫记录的常用有效方法是什么？

亚力山大

让我们创建一个具有一百万行和时间性能的数据框。索引是熊猫时间戳。

df = pd.DataFrame(np.random.randn(1000000, 3), 
                  columns=list('ABC'), 
                  index=pd.DatetimeIndex(start='2015-1-1', freq='10s', periods=1000000))

以下是从最快到最慢排序的结果（在同一台计算机上同时使用v。0.14.1（不要问...）和最新版本0.17.1进行了测试）：

%timeit df2 = df['2015-2-1':'2015-3-1']
1000 loops, best of 3: 459 µs per loop (v. 0.14.1)
1000 loops, best of 3: 664 µs per loop (v. 0.17.1)

%timeit df2 = df.ix['2015-2-1':'2015-3-1']
1000 loops, best of 3: 469 µs per loop (v. 0.14.1)
1000 loops, best of 3: 662 µs per loop (v. 0.17.1)

%timeit df2 = df.loc[(df.index >= '2015-2-1') & (df.index <= '2015-3-1'), :]
100 loops, best of 3: 8.86 ms per loop (v. 0.14.1)
100 loops, best of 3: 9.28 ms per loop (v. 0.17.1)

%timeit df2 = df.loc['2015-2-1':'2015-3-1', :]
1 loops, best of 3: 341 ms per loop (v. 0.14.1)
1000 loops, best of 3: 677 µs per loop (v. 0.17.1)

以下是将Datetime索引作为一列的计时：

df.reset_index(inplace=True)

%timeit df2 = df.loc[(df['index'] >= '2015-2-1') & (df['index'] <= '2015-3-1')]
100 loops, best of 3: 12.6 ms per loop (v. 0.14.1)
100 loops, best of 3: 13 ms per loop (v. 0.17.1)

%timeit df2 = df.loc[(df['index'] >= '2015-2-1') & (df['index'] <= '2015-3-1'), :]
100 loops, best of 3: 12.8 ms per loop (v. 0.14.1)
100 loops, best of 3: 12.7 ms per loop (v. 0.17.1)

以上所有索引技术都产生相同的数据帧：