我有一个这样的熊猫DataFrame:
document id document version version date
101 1 2020-01-01
101 2 2020-01-02
102 1 2020-01-01
103 1 2019-05-02
101 3 2019-12-03
102 2 2020-01-02
我无法弄清楚如何识别文档版本较新的行,且其版本日期早于或等于先前版本的日期。
因此,在此示例中,我想用文档101版本3和日期2019-12-03标识第5行,该日期早于该文档版本2的日期。
非常感谢!
我尝试了@Allen选项,并没有获得理想的结果。
尝试按document id
和排序document version
,dfgroupby.diff并过滤负值
df1=df.sort_values(['document id', 'document version'])
df1['document date ']=pd.to_datetime(df1['document date '])
df1[df1.groupby('document id')['document date '].apply(lambda x: x.diff(1)).astype('timedelta64[D]')<0]
结果:
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句