Python에서 토크 나이저 구현

켈리 파월

공백을 사용하여 문자열을 단어로 분할하는 파이썬에서 토큰 화기를 구현하려고합니다 (NLTK 라이브러리를 사용하지 않음). 사용 예는 다음과 같습니다.

>> tokens = tokenise1(“A (small, simple) example”)
>> tokens
[‘A’, ‘(small,’, ‘simple)’, ‘example’]

정규식을 사용하여 일부 방법을 얻을 수 있지만 반환 값에는 원하지 않는 공백이 포함됩니다. 예제 사용에 따라 올바른 반환 값을 어떻게 얻습니까?

내가 지금까지 가지고있는 것은 :

def tokenise1(string):
    return re.split(r'(\S+)', string)

그리고 다음을 반환합니다.

['', 'A', ' ', '(small,', ' ', 'simple)', ' ', 'example', '']

그래서 나는 반환에서 공백을 제거해야

nu11p01n73R

을 사용하여 캡처하기 때문에 출력에 공백이 있습니다 (). 대신 다음과 같이 분할 할 수 있습니다.

re.split(r'\s+', string)
['A', '(small,', 'simple)', 'example']
  • \s+ 하나 이상의 공백과 일치합니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

RWeka에서 백업 토크 나이저 스위치를 구현하는 방법은 무엇입니까?

분류에서Dev

토크 나이저 / 토큰 필드 구축에 도움이 필요합니다

분류에서Dev

연속 구분 기호는 BOOST / 토크 나이저에서 무시됩니다.

분류에서Dev

문자열 토크 나이저 JAVA에서 구분자로 문자 집합

분류에서Dev

Lucene / Solr에서 내 사용자 정의 토크 나이저를 올바르게 구현하는 방법은 무엇입니까?

분류에서Dev

Elasticsearch에서 이메일 토크 나이저 사용

분류에서Dev

이 스크립트에서 Python 정규식 구현

분류에서Dev

GPU에서 Huggingface Bert 토크 나이저 실행

분류에서Dev

문자열 토크 나이저에서 널 포인터 예외

분류에서Dev

Solr에서 여러 토크 나이저 결합

분류에서Dev

부스트 토크 나이저 / 문자 구분자

분류에서Dev

Phoenix에서 사용자 지정 링크를 만들 수 없음 : 프로토콜 Enumerable이 구현되지 않음

분류에서Dev

스몰 토크에서 인수와 함께 새로운 구현

분류에서Dev

Elasticsearch 토크 나이저 ngram에 선행 / 후행 공백 추가

분류에서Dev

다른 변수에 대한 토크 나이저 읽기

분류에서Dev

파이썬에서 에라토스테네스 구현의 체

분류에서Dev

Transformers 라이브러리에서 Bert 토크 나이저를 자르는 방법

분류에서Dev

이 시나리오에서 GIT 구현

분류에서Dev

bert 토크 나이저에서 작동하지 않는 인수 "never_split"

분류에서Dev

사용자 지정 토크 나이저에서 인덱싱 충돌

분류에서Dev

Spacy에서 사용자 정의 토크 나이저를 사용하여 공백없이 문자열 토큰 화

분류에서Dev

Roberta 모델에 사용 된 토크 나이저를 이해하기 어려움

분류에서Dev

토크 나이 저는 Elasticsearch에서 인덱싱이나 쿼리 또는 둘 다를 위해 작동합니까?

분류에서Dev

파이썬에서 핫 데크 대치 구현

분류에서Dev

파이썬 스크립트에서 반 슬리 펀 구현

분류에서Dev

Huggingface 저장 토크 나이저

분류에서Dev

Pytorch의 사전 훈련 된 모델에서 저장된 토크 나이저를로드하는 방법

분류에서Dev

스프링 프레임 워크에서 프로토 타입 빈 범위 구현

분류에서Dev

solr 일본어 토크 나이저가 가타카나에서 작동하지 않습니다.

Related 관련 기사

  1. 1

    RWeka에서 백업 토크 나이저 스위치를 구현하는 방법은 무엇입니까?

  2. 2

    토크 나이저 / 토큰 필드 구축에 도움이 필요합니다

  3. 3

    연속 구분 기호는 BOOST / 토크 나이저에서 무시됩니다.

  4. 4

    문자열 토크 나이저 JAVA에서 구분자로 문자 집합

  5. 5

    Lucene / Solr에서 내 사용자 정의 토크 나이저를 올바르게 구현하는 방법은 무엇입니까?

  6. 6

    Elasticsearch에서 이메일 토크 나이저 사용

  7. 7

    이 스크립트에서 Python 정규식 구현

  8. 8

    GPU에서 Huggingface Bert 토크 나이저 실행

  9. 9

    문자열 토크 나이저에서 널 포인터 예외

  10. 10

    Solr에서 여러 토크 나이저 결합

  11. 11

    부스트 토크 나이저 / 문자 구분자

  12. 12

    Phoenix에서 사용자 지정 링크를 만들 수 없음 : 프로토콜 Enumerable이 구현되지 않음

  13. 13

    스몰 토크에서 인수와 함께 새로운 구현

  14. 14

    Elasticsearch 토크 나이저 ngram에 선행 / 후행 공백 추가

  15. 15

    다른 변수에 대한 토크 나이저 읽기

  16. 16

    파이썬에서 에라토스테네스 구현의 체

  17. 17

    Transformers 라이브러리에서 Bert 토크 나이저를 자르는 방법

  18. 18

    이 시나리오에서 GIT 구현

  19. 19

    bert 토크 나이저에서 작동하지 않는 인수 "never_split"

  20. 20

    사용자 지정 토크 나이저에서 인덱싱 충돌

  21. 21

    Spacy에서 사용자 정의 토크 나이저를 사용하여 공백없이 문자열 토큰 화

  22. 22

    Roberta 모델에 사용 된 토크 나이저를 이해하기 어려움

  23. 23

    토크 나이 저는 Elasticsearch에서 인덱싱이나 쿼리 또는 둘 다를 위해 작동합니까?

  24. 24

    파이썬에서 핫 데크 대치 구현

  25. 25

    파이썬 스크립트에서 반 슬리 펀 구현

  26. 26

    Huggingface 저장 토크 나이저

  27. 27

    Pytorch의 사전 훈련 된 모델에서 저장된 토크 나이저를로드하는 방법

  28. 28

    스프링 프레임 워크에서 프로토 타입 빈 범위 구현

  29. 29

    solr 일본어 토크 나이저가 가타카나에서 작동하지 않습니다.

뜨겁다태그

보관