我正在使用一个表格,该表格的列中包含对患者执行的操作,每一行代表一个患者。我需要做的是计算有多少患者接受了相同的程序组合。即,在每一行中都显示过程[A,B]或[A,B,Z]。顺序无关紧要。
因此,假设有此示例表,我尝试通过以下方式使用.isin()方法:
d = {'col1': ['A', 'A', 'B',], 'col2': ['B', 'D', 'C'], 'col3': ['C', '','X',]}
df = pd.DataFrame(data=d)
print(df)
col1 col2 col3
0 A B C
1 A D
2 B C X
我想获取给定两个过程,每个过程执行了多少次的列表:
dx1 = ['A', 'B']
df[df.isin(dx1).any(1)].apply(pd.value_counts).sum(axis=1).sort_values(ascending=False)
但是我得到了给定每个过程分别执行并加在一起的次数的列表(而不是“ and”将“ or”作为条件)
C 2.0
H 1.0
D 1.0
A 1.0
1.0
dtype: float64
我需要为您提供执行A和B以外的过程的次数的列表,在这种情况下,应为:
C 1.0
dtype: float64
非常感谢您的提前估算。
由于您不关心订单,因此集合应该可以解决您的问题:
d = {'col1': ['A', 'A', 'B',], 'col2': ['B', 'D', 'C'], 'col3': ['C', '','X',]}
df = pd.DataFrame(data=d)
dx1 = ['A', 'B']
df["procedures"] = df.apply(lambda x: [x.col1, x.col2, x.col3], axis=1)
df["contains_dx1"] = df.procedures.apply(lambda x: set(dx1).issubset(set(x)))
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句