파이썬 정규식을 사용하여 문자열에서 유니 코드가 아닌 것처럼 보이는 일부 문자를 제거하려고합니다. 내 코드는 다음과 같습니다.
xxx='Juliana Gon\xe7alves Miguel'
t=re.sub('\w*','',xxx)
t
결과는 다음과 같습니다.
>>> xxx='Juliana Gon\xe7alves Miguel'
>>> t=re.sub('\w*','',xxx)
>>> t
' \xe7 '
이 \ xe7을 제거하려고합니다. 누구나 아이디어를 가질 수 있습니까?
원하는 출력이
'Juliana Gonalves Miguel'
다음 정규식이 트릭을 수행해야합니다.
re.sub('(?![ -~]).', '', xxx)
[ -~]
: 모든 ASCII 문자에 대해 짧고 읽기 쉬운 버전
(?!)
: 부정적 예측
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다