计算给定特定值的两个日期之间的天数

debugcn 发表于 Dev

Mataunited18

我有一个数据框df1，我想在给定三个条件的情况下计算两个日期之间的天数，并创建一个DiffDays具有天数差异的新列。

1）当Yes是1

2) 当值Value不为零时

3) 必须是UserId具体的（也许有groupby()）

df1 = pd.DataFrame({'Date':['02.01.2017', '03.01.2017', '04.01.2017', '05.01.2017', '01.01.2017', '02.01.2017', '03.01.2017'],
                   'UserId':[1,1,1,1,2,2,2],
                   'Value':[0,0,0,100,0,1000,0],
                   'Yes':[1,0,0,0,1,0,0]})

例如，whenYes为 1，计算 whenValue为非零（即 05.01.2017）和 whenYes为 1（即 02.01.2017）之间的日期。结果是第 3 行中 UserId 的三天。

预期结果：

        Date    UserId  Value   Yes  DiffDays
0   02.01.2017  1        0.0    1    0
1   03.01.2017  1        0.0    0.0  0
2   04.01.2017  1        0.0    0.0  0
3   05.01.2017  1        100    0.0  3
4   01.01.2017  2        0.0    1    0
5   02.01.2017  2        1000   0.0  1
6   03.01.2017  2        0.0    0.0  0

我在 Stackoverflow 上找不到任何关于此的信息，也不知道如何开始。

心愿

def dayDiff(groupby):
    if (not (groupby.Yes == 1).any()) or (not (groupby.Value > 0).any()):
        return np.zeros(groupby.Date.count())

    min_date = groupby[groupby.Yes == 1].Date.iloc[0]    
    max_date = groupby[groupby.Value > 0].Date.iloc[0]
    delta = max_date - min_date
    return np.where(groupby.Value > 0 , delta.days, 0)


df1.Date = pd.to_datetime(df1.Date, dayfirst=True)
DateDiff = df1.groupby('UserId').apply(dayDiff).explode().rename('DateDiff').reset_index(drop=True)
pd.concat([df1, DateDiff], axis=1)


Date    UserId  Value     Yes       DateDiff
0   2017-01-02  1   0      1          0
1   2017-01-03  1   0      0          0
2   2017-01-04  1   0      0          0
3   2017-01-05  1   100    0          3
4   2017-01-01  2   0      1          0
5   2017-01-02  2   1000   0          1
6   2017-01-03  2   0      0          0

尽管这回答了您的问题，但diff很难遵循日期逻辑，尤其是在DateDiff值的放置方面。

更新

pd.Series.explode()仅在pandasversion 中引入0.25，对于使用以前版本的人：

df1.Date = pd.to_datetime(df1.Date, dayfirst=True)
DateDiff = (df1
            .groupby('UserId')
            .apply(dayDiff)
            .to_frame()
            .explode(0)
            .reset_index(drop=True)
            .rename(columns={0: 'DateDiff'}))
pd.concat([df1, DateDiff], axis=1)

这将产生相同的结果。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。