단위 제조업체를 나열하는 다음 표가 있다고 가정합니다.
import pandas as pd
df = pd.DataFrame({'Maker': ['Company1ID', 'SusanID', 'CeramiCorpID', 'PeterID', 'SaraID', 'CeramiCorpID', 'Company1ID']})
print(df)
이제 여러 개인 및 기업 ID가있는 훨씬 더 큰 테이블이 있고이를 예상 열에 개인 및 기업 이 표시 한 두 가지 범주로 재 분류하고 싶습니다 . ID는 표시된 것보다 훨씬 복잡하며 (예 : f00568ab456b) 각 개인 또는 회사마다 고유 하지만 회사 만 다른 행에 표시됩니다 .
| Maker | Expected |
|--------------|----------|
| Company1ID | Corp |
| SusanID | Person |
| CeramiCorpID | Corp |
| PeterID | Person |
| SaraID | Person |
| CeramiCorpID | Corp |
| Company1ID | Corp |
내가 중 하나를 사용해야 할 경우 기본적으로 내가 이해하려고 노력 붙어 .apply (람 바어 X) 또는 .replace을 에 조건의 일종으로 .duplicated (KEEP = 거짓) . 어느 쪽이든 어떻게해야할지 모르겠습니다.
감사합니다!
이것이 원하는 것인지 잘 모르겠지만 다음과 같이 '예상'열을 만들 수 있습니다.
df['Expected'] = ['Corp' if 'Corp' in maker else 'Person' for maker in df['Maker']]
편집 : 발생 횟수에 따라 분류되도록하려면 :
df['Expected'] = ['Corp' if len(df[df['Maker'] == maker]) > 1 else 'Person' for maker in df['Maker']]
한 번만 발생하는 Corp이 없다고 가정합니다. 그러나 그것이 사실 일 수 있다면 그것이 Person인지 Corp인지 어떻게 알 수 있습니까?
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다