Python에서 토크 나이저 구현

debugcn 에 게시 Dev

켈리 파월

공백을 사용하여 문자열을 단어로 분할하는 파이썬에서 토큰 화기를 구현하려고합니다 (NLTK 라이브러리를 사용하지 않음). 사용 예는 다음과 같습니다.

>> tokens = tokenise1(“A (small, simple) example”)
>> tokens
[‘A’, ‘(small,’, ‘simple)’, ‘example’]

정규식을 사용하여 일부 방법을 얻을 수 있지만 반환 값에는 원하지 않는 공백이 포함됩니다. 예제 사용에 따라 올바른 반환 값을 어떻게 얻습니까?

내가 지금까지 가지고있는 것은 :

def tokenise1(string):
    return re.split(r'(\S+)', string)

그리고 다음을 반환합니다.

['', 'A', ' ', '(small,', ' ', 'simple)', ' ', 'example', '']

그래서 나는 반환에서 공백을 제거해야

nu11p01n73R

을 사용하여 캡처하기 때문에 출력에 공백이 있습니다 (). 대신 다음과 같이 분할 할 수 있습니다.

re.split(r'\s+', string)
['A', '(small,', 'simple)', 'example']

\s+ 하나 이상의 공백과 일치합니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-8

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Python에서 토크 나이저 구현

Python에서 토크 나이저 구현

RWeka에서 백업 토크 나이저 스위치를 구현하는 방법은 무엇입니까?

토크 나이저 / 토큰 필드 구축에 도움이 필요합니다

연속 구분 기호는 BOOST / 토크 나이저에서 무시됩니다.

문자열 토크 나이저 JAVA에서 구분자로 문자 집합

Lucene / Solr에서 내 사용자 정의 토크 나이저를 올바르게 구현하는 방법은 무엇입니까?

Elasticsearch에서 이메일 토크 나이저 사용

이 스크립트에서 Python 정규식 구현

GPU에서 Huggingface Bert 토크 나이저 실행

문자열 토크 나이저에서 널 포인터 예외

Solr에서 여러 토크 나이저 결합

부스트 토크 나이저 / 문자 구분자

Phoenix에서 사용자 지정 링크를 만들 수 없음 : 프로토콜 Enumerable이 구현되지 않음

스몰 토크에서 인수와 함께 새로운 구현

Elasticsearch 토크 나이저 ngram에 선행 / 후행 공백 추가

다른 변수에 대한 토크 나이저 읽기

파이썬에서 에라토스테네스 구현의 체

Transformers 라이브러리에서 Bert 토크 나이저를 자르는 방법

이 시나리오에서 GIT 구현

bert 토크 나이저에서 작동하지 않는 인수 "never_split"

사용자 지정 토크 나이저에서 인덱싱 충돌

Spacy에서 사용자 정의 토크 나이저를 사용하여 공백없이 문자열 토큰 화

Roberta 모델에 사용 된 토크 나이저를 이해하기 어려움

토크 나이 저는 Elasticsearch에서 인덱싱이나 쿼리 또는 둘 다를 위해 작동합니까?

파이썬에서 핫 데크 대치 구현

파이썬 스크립트에서 반 슬리 펀 구현

Huggingface 저장 토크 나이저

Pytorch의 사전 훈련 된 모델에서 저장된 토크 나이저를로드하는 방법

스프링 프레임 워크에서 프로토 타입 빈 범위 구현

solr 일본어 토크 나이저가 가타카나에서 작동하지 않습니다.