Python Pandas：根据另一个数据框的类别值创建新列

debugcn 发表于 Dev

米歇尔·梅斯基塔（Michel Mesquita）

我有两个数据框：

dfA，其中包含数千行温度数据。每个温度值都链接到timeID从不同对象测得的值（1、2、3，...，n），因此存在重复的时间ID
dfB包含标识每个时间ID的标签。这些标签是正确的日期/时间（date）值

现在，我想在中创建一个新列dfA，其中包含date与right对应的正确值timeID。我怎样才能做到这一点？

以下是我拥有的数据集的几行，例如：

dfA = pd.DataFrame({'timeID': ['1', '2', '3','2','3','4'], 'temp': ['4.5', '5.1', '4.0','-2.3','3.9','-1.1']})
dfB = pd.DataFrame(pd.date_range('6/24/2013', periods=6, freq='10Min'))
seq = pd.Series(range(1, 7)).to_frame()
dfB = pd.concat([seq,dfB],axis=1)
dfB.columns = ['timeID','date']
dfB.set_index('timeID',inplace=True)
print(dfA)
print(dfB)

输出为dfA：

|    temp  timeID
+-----------------
| 0   4.5      1
| 1   5.1      2
| 2   4.0      3
| 3  -2.3      2
| 4   3.9      3
| 5  -1.1      4

输出为dfB：

|                      date
| timeID                    
+----------------------------
| 1      2013-06-24 00:00:00
| 2      2013-06-24 00:10:00
| 3      2013-06-24 00:20:00
| 4      2013-06-24 00:30:00
| 5      2013-06-24 00:40:00
| 6      2013-06-24 00:50:00

最大容量

首先，您需要确保timeID两个DF中的列都具有相同的dtype，然后可以使用map（）方法：

In [78]: dfA['date'] = dfA['timeID'].astype(dfB.index.dtype).map(dfB['date'])

In [79]: dfA
Out[79]:
   temp timeID                date
0   4.5      1 2013-06-24 00:00:00
1   5.1      2 2013-06-24 00:10:00
2   4.0      3 2013-06-24 00:20:00
3  -2.3      2 2013-06-24 00:10:00
4   3.9      3 2013-06-24 00:20:00
5  -1.1      4 2013-06-24 00:30:00

timeID在较小的DF中转换dtype也很有意义，因为它将更快（更有效），因此，如果dfB较小的话，我可以这样进行：

In [82]: dfB.index = dfB.index.astype(str)

In [84]: dfA['date'] = dfA['timeID'].map(dfB['date'])

In [85]: dfA
Out[85]:
   temp timeID                date
0   4.5      1 2013-06-24 00:00:00
1   5.1      2 2013-06-24 00:10:00
2   4.0      3 2013-06-24 00:20:00
3  -2.3      2 2013-06-24 00:10:00
4   3.9      3 2013-06-24 00:20:00
5  -1.1      4 2013-06-24 00:30:00

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。