行ごとにデータフレーム内の文字列内の重複する単語を削除しようとしています。
データフレームが次のようになっているとします。
In:
Yes Yes Absolutely
No No Nope
Win Win Lose
for row in df.iterrows():
row["Sentence"] = (list(set(row["Sentence"])))
Desired Out:
Yes Absolutely
No Nope
Win Lose
各行をクリーンアップして、重複する文字列を削除するにはどうすればよいですか。上記のコードを試しました。
ドキュメントやソースへのリンクがあれば、私を正しい方向に導くことができれば幸いです。ありがとうございました。
使用できます(列名が0であると想定):
from collections import OrderedDict
df[0].str.split().apply(lambda x: ','.join(OrderedDict.fromkeys(x).keys()))
0 Yes,Absolutely
1 No,Nope
2 Win,Lose
注、次のように設定を使用できます。
df[0].str.split().apply(lambda x: ','.join(list(set(x))))
ただし、セットは順序を保証するものではありません。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加