표에 제목 열이 있고 별도의 표 / 벡터에 나열된 모든 단어를 삭제하고 싶습니다.
예를 들어, 제목 표 :
"로렘 입섬 스마트"
"솔직히
말하자면, 대학생이 주된" "경쟁이지만 가끔씩은 시간이있다"
, "활력과 노력 '
"그리고 비만. "
삭제 : C ( "lorem", "pain", "competition")
산출:
"팀"
"솔직히 말해서 대학생은"
"하지만 그들은 가끔씩 시간을 낸다"
, "활력과 노력 '
"과 비만. "
블랙리스트에있는 단어는 여러 번 나타날 수 있습니다.
tm 패키지에는이 기능이 있지만 워드 클라우드에 적용될 때. 내가 필요한 것은 모든 행을 하나의 문자열로 결합하는 대신 열을 그대로 두는 것입니다. 정규식 함수 (gsub ())는 값 집합이 패턴으로 주어지면 작동하지 않는 것 같습니다. Oracle SQL 솔루션도 흥미로울 것입니다.
먼저 데이터를 읽으십시오.
dat <- c("Lorem ipsum dolor",
"sit amet, consectetur adipiscing",
"elit, sed do eiusmod tempor",
"incididunt ut labore",
"et dolore magna aliqua.")
todelete <- c("Lorem", "dolore", "elit")
약간의 스마트 한 붙여 넣기로 루프를 피할 수 있습니다. 는 |
또는 그래서 우리는 우리가 어떤 루프를 제거 할 수 있도록 허용에 붙여 넣을 수 있습니다 :
gsub(paste0(todelete, collapse = "|"), "", dat)
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다