NLTK-청크 문법이 쉼표를 읽지 않습니다.

debugcn 에 게시 Dev

아르 다 날 반트

from nltk.chunk.util import tagstr2tree
from nltk import word_tokenize, pos_tag
text = "John Rose Center is very beautiful place and i want to go there with Barbara Palvin. Also there are stores like Adidas ,Nike ,Reebok Center."
tagged_text = pos_tag(text.split())

grammar = "NP:{<NNP>+}"

cp = nltk.RegexpParser(grammar)
result = cp.parse(tagged_text)

print(result)

산출:

(S
  (NP John/NNP Rose/NNP Center/NNP)
  is/VBZ
  very/RB
  beautiful/JJ
  place/NN
  and/CC
  i/NN
  want/VBP
  to/TO
  go/VB
  there/RB
  with/IN
  (NP Barbara/NNP Palvin./NNP)
  Also/RB
  there/EX
  are/VBP
  stores/NNS
  like/IN
  (NP Adidas/NNP ,Nike/NNP ,Reebok/NNP Center./NNP))

청킹에 사용하는 문법은 nnp 태그에서만 작동하지만 단어가 쉼표로 순차적 인 경우에도 동일한 줄에 표시됩니다.

(S
  (NP John/NNP Rose/NNP Center/NNP)
  is/VBZ
  very/RB
  beautiful/JJ
  place/NN
  and/CC
  i/NN
  want/VBP
  to/TO
  go/VB
  there/RB
  with/IN
  (NP Barbara/NNP Palvin./NNP)
  Also/RB
  there/EX
  are/VBP
  stores/NNS
  like/IN
  (NP Adidas,/NNP)
  (NP Nike,/NNP)
  (NP Reebok/NNP Center./NNP))

"grammar ="에 무엇을 써야합니까? 아니면 위에서 쓴 것처럼 출력을 편집 할 수 있습니까? 당신이 볼 수 있듯이 명명 된 엔터티 프로젝트에 대한 고유 명사 만 구문 분석 할 수 있습니다.

자다

word_tokenize(string)대신 사용 string.split():

>>> import nltk
>>> from nltk.chunk.util import tagstr2tree
>>> from nltk import word_tokenize, pos_tag
>>> text = "John Rose Center is very beautiful place and i want to go there with Barbara Palvin. Also there are stores like Adidas ,Nike ,Reebok Center."
>>> tagged_text = pos_tag(word_tokenize(text))
>>> 
>>> grammar = "NP:{<NNP>+}"
>>> 
>>> cp = nltk.RegexpParser(grammar)
>>> result = cp.parse(tagged_text)
>>> 
>>> print(result)
(S
  (NP John/NNP Rose/NNP Center/NNP)
  is/VBZ
  very/RB
  beautiful/JJ
  place/NN
  and/CC
  i/NN
  want/VBP
  to/TO
  go/VB
  there/RB
  with/IN
  (NP Barbara/NNP Palvin/NNP)
  ./.
  Also/RB
  there/EX
  are/VBP
  stores/NNS
  like/IN
  (NP Adidas/NNP)
  ,/,
  (NP Nike/NNP)
  ,/,
  (NP Reebok/NNP Center/NNP)
  ./.)

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-7

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

NLTK-청크 문법이 쉼표를 읽지 않습니다.

NLTK-청크 문법이 쉼표를 읽지 않습니다.

가격 값의 쉼표를 읽지 않습니다.

청크의 그리스 문자가 제대로 표시되지 않습니다.

vba는 스트라이크를 제거하지 않고 쉼표를 제거합니다.

csv를 읽지 만 문자열에서 이스케이프 된 쉼표를 건너 뜁니다.

nltk 문장 토크 나이 저는 AttributeError를 제공합니다.

청크를 문자열로 변환하는 NLTK

torch.CharStorage는 크기가 제공되지 않으면 파일에서 데이터를 읽지 않습니다.

파이썬은 쉼표가있는 CSV를 구분 기호로 읽지 만 따옴표 안의 쉼표를 수천으로 해석합니다.

쉼표로 구분 된 값이있는 Bash 스크립트 변수는 다른 파일에 추가 될 때 쉼표로 구분되지 않습니다.

응답을 읽지 않으면 HttpURLConnection이 요청을 보내지 않습니다.

문자 배열이 새 크기를 따르지 않습니다.

쉼표를 삭제하면 숫자 파이프가 값의 형식을 지정하지 않습니다.

codeigniter가 요청한 페이지를 표시하지 않습니다.

Aria-live 지역은 크롬에서 요소가 제거 될 때 업데이트를 읽지 않습니다.

스크립트는 데이터를 읽지 만 변경하지는 않습니다.

코드를 sh로 파이프 — 스크립트가 읽기 명령을 기다리고 있지 않습니다.

Selenium은 두 번째 페이지를 읽지 않습니다.

getJSON 요청이 데이터를 구문 분석하지 않습니다.

이미지를 읽지 않음, 'NoneType에 읽기 속성이 없습니다'

mysql 레코드를 만들고 읽는이 스크립트는 실행되지 않습니다.

React.js-정의되지 않은 오류의 속성 '스트라이크'를 읽을 수 없습니다.

쉼표까지 문자열을 읽은 다음 해당 비트를 저장하고 표시하는 방법은 무엇입니까?

ajax 요청에서 스크롤에서 얻은 데이터는 녹아웃 js를 사용하여 표시되지 않습니다.

Chrome은 다른 앱에서 요청한 링크를 열지 않습니다.

C-사용자 입력의 단일 문자를 읽고 나머지는 다음 입력 요청으로 "푸시 다운"하지 않는 방법이 있습니까?

NLTK BigramTagger는 문장의 절반을 태그하지 않습니다.

PHP 텍스트 상자 데이터를 읽지 않습니다.

angularjs angular는 배열의 길이를 읽지 않습니다.

Gradle createPom이 gradle.properties를 읽지 않는 것 같습니다.