주어진 문자열 :
c = 'A problem. She said: "I don\'t know about it."'
토큰 화 시도 :
>>> for sindex,sentence in enumerate(sent_tokenize(c)):
... print str(sindex)+": "+sentence
...
0: A problem.
1: She said: "I don't know about it.
2: "
>>>
NLTK가 문장 2의 끝 인용문을 자체 문장 3에 넣는 이유는 무엇입니까? 이 동작을 수정할 수있는 방법이 있습니까?
default 대신 sent_tokenize
필요한 것은 punkt
문장 토크 나이저 에서 이미 사전 코딩 된 사전 코딩 된 재정렬 기능입니다 .
>>> import nltk
>>> st2 = nltk.data.load('tokenizers/punkt/english.pickle')
>>> sent = 'A problem. She said: "I don\'t know about it."'
>>> st2.tokenize(sent, realign_boundaries=True)
['A problem.', 'She said: "I don\'t know about it."']
http://nltk.googlecode.com/svn/trunk/doc/howto/tokenize.html의6 Punkt Tokenizer
섹션을 참조하십시오.
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다