함수를 그룹 키로 전달하면 반환 값이 그룹 이름으로 사용되는 인덱스 값당 한 번씩 함수가 호출된다는 것을 이해합니다. 내가 알아낼 수없는 것은 열 값에 대해 함수를 호출하는 방법입니다.
그래서 이렇게 할 수 있습니다.
people = pd.DataFrame(np.random.randn(5, 5),
columns=['a', 'b', 'c', 'd', 'e'],
index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'])
def GroupFunc(x):
if len(x) > 3:
return 'Group1'
else:
return 'Group2'
people.groupby(GroupFunc).sum()
이렇게하면 데이터가 두 그룹으로 나뉘는데, 그 중 하나는 길이가 3 이하인 인덱스 값이 있고 다른 하나는 길이가 3 이상인 그룹입니다. 그러나 열 값 중 하나를 어떻게 전달할 수 있습니까? 예를 들어 각 인덱스 포인트의 d 열 값이 1보다 크면 다음을 수행 할 수 있습니다.
people.groupby(people.a > 1).sum()
하지만 나중에 참조 할 수 있도록 사용자 정의 함수에서이 작업을 수행하는 방법을 알고 싶습니다.
다음과 같은 것 :
def GroupColFunc(x):
if x > 1:
return 'Group1'
else:
return 'Group2'
하지만 이것을 어떻게 부를까요? 나는 시도했다
people.groupby(GroupColFunc(people.a))
및 유사한 변형이지만 작동하지 않습니다.
함수에 열 값을 어떻게 전달합니까? 예를 들어 people.a> people.b 여부를 그룹화하기 위해 여러 열 값을 어떻게 전달합니까?
> 1로 그룹화하려면 다음과 같이 함수를 정의 할 수 있습니다.
>>> def GroupColFunc(df, ind, col):
... if df[col].loc[ind] > 1:
... return 'Group1'
... else:
... return 'Group2'
...
그런 다음
>>> people.groupby(lambda x: GroupColFunc(people, x, 'a')).sum()
a b c d e
Group2 -2.384614 -0.762208 3.359299 -1.574938 -2.65963
또는 익명 함수로만 수행 할 수 있습니다.
>>> people.groupby(lambda x: 'Group1' if people['b'].loc[x] > people['a'].loc[x] else 'Group2').sum()
a b c d e
Group1 -3.280319 -0.007196 1.525356 0.324154 -1.002439
Group2 0.895705 -0.755012 1.833943 -1.899092 -1.657191
문서 에서 언급했듯이 레이블-> 그룹 이름 매핑을 제공하는 Series를 전달하여 그룹화 할 수도 있습니다.
>>> mapping = np.where(people['b'] > people['a'], 'Group1', 'Group2')
>>> mapping
Joe Group2
Steve Group1
Wes Group2
Jim Group1
Travis Group1
dtype: string48
>>> people.groupby(mapping).sum()
a b c d e
Group1 -3.280319 -0.007196 1.525356 0.324154 -1.002439
Group2 0.895705 -0.755012 1.833943 -1.899092 -1.657191
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다