NLTK가 문장 끝에서 인용구를 잘못 토큰 화하는 이유는 무엇입니까?

debugcn 에 게시 Dev

혼합

주어진 문자열 :

c = 'A problem. She said: "I don\'t know about it."'

토큰 화 시도 :

>>> for sindex,sentence in enumerate(sent_tokenize(c)):
...     print str(sindex)+": "+sentence
...
0: A problem.
1: She said: "I don't know about it.
2: "
>>>

NLTK가 문장 2의 끝 인용문을 자체 문장 3에 넣는 이유는 무엇입니까? 이 동작을 수정할 수있는 방법이 있습니까?

자다

default 대신 sent_tokenize필요한 것은 punkt문장 토크 나이저 에서 이미 사전 코딩 된 사전 코딩 된 재정렬 기능입니다 .

>>> import nltk
>>> st2 = nltk.data.load('tokenizers/punkt/english.pickle')
>>> sent = 'A problem. She said: "I don\'t know about it."'
>>> st2.tokenize(sent, realign_boundaries=True)
['A problem.', 'She said: "I don\'t know about it."']

http://nltk.googlecode.com/svn/trunk/doc/howto/tokenize.html의6 Punkt Tokenizer 섹션을 참조하십시오.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-05-29

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

NLTK가 문장 끝에서 인용구를 잘못 토큰 화하는 이유는 무엇입니까?

NLTK가 문장 끝에서 인용구를 잘못 토큰 화하는 이유는 무엇입니까?

Datomic에서 db / ident 이름에 숫자를 사용하면 잘못된 토큰 오류가 발생하는 이유는 무엇입니까?

잘못된 구문 오류가 발생하는 이유는 무엇입니까?

Kubernetes apiserver가 etcd 서버에 잘못된 인증서를 제공하는 이유는 무엇입니까?

내 하드 드라이브에서 가장 큰 디렉토리를 찾는 방법은 무엇입니까?

내 하드 드라이브에서 가장 큰 디렉토리를 찾는 방법은 무엇입니까?

antrl4가 문법 규칙의 일부로 토큰을 인식하지 못하는 이유는 무엇입니까?

Stanford NLP를 사용하여 문장 (CoreMap)에서 토큰 (CoreLabel)을 대체하는 방법은 무엇입니까?

인증 코드에서 액세스 토큰 교환을 호출하지 못한 이유는 무엇입니까?

initializer_list 인수가있는 템플릿이 문자열에서 잘못 작동하는 이유는 무엇입니까?

C ++에서 문자열 벡터를 가장 잘 초기화하는 방법은 무엇입니까?

GitHub의 Atom 자동 완성 기능이 한 문자가 끝에서 잘린 기호를 제안하는 이유는 무엇입니까?

모듈에서 인증 토큰 오류가 발생하는 이유는 무엇입니까?

XML 파일을 읽으려고 할 때 fs.readFile에서 예기치 않은 토큰의 구문 오류가 발생하는 이유는 무엇입니까?

필드 변수를 동기화하고 동기화 된 블록 내에서 증가 시키면 인쇄 순서가 잘못된 이유는 무엇입니까?

내 화장실 구현이 잘못된 단어 수를 제공하는 이유는 무엇입니까?

어레이가 주어진 문제에서 원치 않는 다른 숫자를 저장하는 이유는 무엇입니까 ?? 이로 인해 잘못된 출력이 발생합니다.

내 프로그램이 잘못된 가장 높은 숫자를 출력하는 이유는 무엇입니까?

인용 된 변수 확장의 따옴표가 bash에서 잘 작동하는 이유는 무엇입니까?

PHP에서 bash 쉘 명령을 토큰 화하는 가장 좋은 방법은 무엇입니까?

Python : 내 'if'문이 숫자를 잘못 평가하는 이유는 무엇입니까?

이 " '사이'키워드 근처의 잘못된 구문"을 사이를 사용하는 SQL Server 쿼리로 가져 오는 이유는 무엇입니까?

Parse_Dates가 Python에서 잘못된 결과를 제공하는 이유는 무엇입니까?

Valgrind가 잘못된 위치에서 오류를 제공하는 이유는 무엇입니까?

의사 결정 트리가 R에서 잘못된 분류를 제공하는 이유는 무엇입니까?

내 통합 테스트가 get에 실패하는 이유는 무엇입니까? "ArgumentError : 잘못된 인수 (예상되는 URI 개체 또는 URI 문자열)"

커스텀`create` 메소드를 사용할 때 잘못된 데이터가 데이터베이스에 저장되는 이유는 무엇입니까?

내 프로그램이 가장 큰 숫자를 읽지 못하는 이유는 무엇입니까?

세미콜론이 문서화 될 때 jq에서 range () 함수가 쉼표를 인수 구분 기호로 허용하는 이유는 무엇입니까?

Linux가 / dev / mem에 문자 장치 인터페이스를 사용하는 이유는 무엇입니까?