2つの列を持つデータフレームがあります。1つの列には文のリストが含まれ、他の列には単語が含まれます。例えば:
words sentences
loose Loose connection several times a day on my tablet.
loud People don't speak loud or clear enough to hear voicemails
vice I strongly advice you to fix this issue
advice I strongly advice you to fix this issue
次に、このデータフレームをフィルタリングして、文の単語と完全に一致する単語を含む行のみを取得するようにします。
words sentences
loose Loose connection several times a day on my tablet.
loud People don't speak loud or clear enough to hear voicemails
advice I strongly advice you to fix this issue
「vice」という単語は完全に一致しなかったため、削除する必要があります。データフレームに2万行近くあります。パフォーマンスをあまり低下させないように、このタスクを実行するために使用する方法を誰かに提案してもらえますか。
次のようなことを試すことができます。
df[apply(df, 1, function(x) tolower(x[1]) %in% tolower(unlist(strsplit(x[2], split='\\s+')))),]
df
words sentences
1 loose Loose connection several times a day on my tablet.
2 loud People dont speak loud or clear enough to hear voicemail
4 advice advice I strongly advice you to fix this issue
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加