nltk 문장 토크 나이 저는 AttributeError를 제공합니다.

Rohit

저는 파이썬과 NLTK를 처음 접했습니다. 한 가지 문제는 저를 당혹스럽게합니다.

내가 할 때

tokenized = custom_sent_tokenizer.tokenize("some long text")

그것은 나에게 완벽한 결과를줍니다. 그러나이 하드 코딩 된 문자열을 거대한 텍스트를 포함하는 변수로 변경하면 주제 비주얼리 제이션에 언급 된 오류가 발생합니다.

tokenized = custom_sent_tokenizer.tokenize(text)
...
AttributeError: 'list' object has no attribute 'abbrev_types'

아래는 내 전체 코드입니다.

from __future__ import division
import urllib.request
import csv
import nltk
from string import punctuation
from nltk.corpus import stopwords
from nltk.tokenize import PunktSentenceTokenizer

comments = open("CNPS_Comments.txt").read()
comments_list = comments.split('\n')

custom_sent_tokenizer = PunktSentenceTokenizer(comments_list[:300])
##tokenized = custom_sent_tokenizer.tokenize("some long text")
text=""
for comment in comments_list:
   text += comment

tokenized = custom_sent_tokenizer.tokenize(text)
def process_content():
  try:
    for i in tokenized[:5]:
        words = nltk.word_tokenize(i)
        tagged = nltk.pos_tag(words)
        print(tagged)

except Exception as e:
    print(str(e))


process_content()

오늘 파이썬으로 시작했는데 여기서 효과적으로하지 못하는 일이 많을 수 있습니다.

알렉시스

문제를 일으키는 줄은 옳다 : 그것이 인자로 단일 문자열과 함께 문장 토크 나이저를 사용하는 방법이다. 몬스터를 만들었 기 때문에 오류가 발생합니다. :-)

Punkt 문장 토크 나이 저는 비지도 알고리즘을 기반으로합니다. 긴 텍스트를 제공하고 문장 경계가 있어야하는 위치를 파악합니다. 그러나 문장 목록 (의 처음 300 개 요소 comments_list)으로 토크 나이저를 훈련 시켰습니다 . 어떻게 든 토크 나이저가 알아 차리지 못하고 올바르게 사용하려고 할 때 오류가 발생하는 것을 제공합니다.

문제를 해결하려면 단일 문자열로 토크 나이저를 훈련 시키십시오. 다음과 같이 문자열 목록을 하나로 결합하는 것이 가장 좋습니다.

tokenizer = PunktSentenceTokenizer(" ".join(comments_list[:300]))

추신. 리터럴 문자열을 토큰화할 때 성공적으로 작동하는 것에 대해 잘못 알고 있어야합니다. 확실히 작동하는 코드와 질문의 코드 사이에는 다른 차이점이 있습니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

괄호 안의 NLTK 문장 토크 나이저 예비 문장 조정

분류에서Dev

NLTK (5400)와 Spacy (5300)를 사용하여 문장 세기는 다른 답을 제공합니다. 이유를 알고 싶으십니까?

분류에서Dev

Python nltk는 결과에 여러 문장의 인스턴스를 제공합니다.

분류에서Dev

spacy 문장 토크 나이저 범위

분류에서Dev

NLTK가 문장 끝에서 인용구를 잘못 토큰 화하는 이유는 무엇입니까?

분류에서Dev

토크 나이 저는 Elasticsearch에서 인덱싱이나 쿼리 또는 둘 다를 위해 작동합니까?

분류에서Dev

Spacy에서 사용자 정의 토크 나이저를 사용하여 공백없이 문자열 토큰 화

분류에서Dev

문자열에 저장된 각 링크로 이동하여 모든 PDF 링크를 나열합니다.

분류에서Dev

Huggingface 저장 토크 나이저

분류에서Dev

matplotlib.pyplot : 이미지를 저장하는 동안 공백을 제거하고 동일한 크기를 유지합니다.

분류에서Dev

Google 데이터 저장소는지도와 관련된 저장 문제를 객체화합니다.

분류에서Dev

if 조건이있는 mysql 저장 프로 시저가 오류를 제공합니다.

분류에서Dev

사전 훈련 된 BERT 토크 나이저를 저장할 이유가 있습니까?

분류에서Dev

문자열 토크 나이저 (큰 따옴표 및 공백)

분류에서Dev

Elementary OS PPA는 "저장소에 릴리스 파일이 없습니다."를 제공합니다. 오류

분류에서Dev

NLTK-청크 문법이 쉼표를 읽지 않습니다.

분류에서Dev

Pytorch의 사전 훈련 된 모델에서 저장된 토크 나이저를로드하는 방법

분류에서Dev

Environment.getExternalStoragePublicDirectory는 내부 저장소를 제공합니다.

분류에서Dev

이미지를 나타내는 여러 Numpy 배열 목록을 디스크에 저장합니다.

분류에서Dev

Extjs 4.2 store.getRange는 이전에로드 된 저장소의 데이터를 제공합니다.

분류에서Dev

토큰이 문서에 나타나는 횟수를 계산합니다.

분류에서Dev

다크 / 라이트 모드 토글을 위해 쿠키를 저장하는 방법은 무엇입니까?

분류에서Dev

별표 문자를 무시하도록 stanfordNLP 토크 나이저를 사용자 정의하는 방법은 무엇입니까?

분류에서Dev

wc -c는 나에게 하나의 추가 문자 수를 제공합니다.

분류에서Dev

Python NLTK는 고정 된 문장 패턴을 해석하고 토큰 화합니다.

분류에서Dev

"공백"규칙 만있는 공간 토크 나이저

분류에서Dev

Jenkins는 비공개 git 저장소에 오류를 제공합니다.

분류에서Dev

페이지 리디렉션 스크립트는 나에게 리디렉션 루프를 제공합니다.

분류에서Dev

spacy 사용자 정의 토크 나이 저는 단어를 그룹화하지 않습니다.

Related 관련 기사

  1. 1

    괄호 안의 NLTK 문장 토크 나이저 예비 문장 조정

  2. 2

    NLTK (5400)와 Spacy (5300)를 사용하여 문장 세기는 다른 답을 제공합니다. 이유를 알고 싶으십니까?

  3. 3

    Python nltk는 결과에 여러 문장의 인스턴스를 제공합니다.

  4. 4

    spacy 문장 토크 나이저 범위

  5. 5

    NLTK가 문장 끝에서 인용구를 잘못 토큰 화하는 이유는 무엇입니까?

  6. 6

    토크 나이 저는 Elasticsearch에서 인덱싱이나 쿼리 또는 둘 다를 위해 작동합니까?

  7. 7

    Spacy에서 사용자 정의 토크 나이저를 사용하여 공백없이 문자열 토큰 화

  8. 8

    문자열에 저장된 각 링크로 이동하여 모든 PDF 링크를 나열합니다.

  9. 9

    Huggingface 저장 토크 나이저

  10. 10

    matplotlib.pyplot : 이미지를 저장하는 동안 공백을 제거하고 동일한 크기를 유지합니다.

  11. 11

    Google 데이터 저장소는지도와 관련된 저장 문제를 객체화합니다.

  12. 12

    if 조건이있는 mysql 저장 프로 시저가 오류를 제공합니다.

  13. 13

    사전 훈련 된 BERT 토크 나이저를 저장할 이유가 있습니까?

  14. 14

    문자열 토크 나이저 (큰 따옴표 및 공백)

  15. 15

    Elementary OS PPA는 "저장소에 릴리스 파일이 없습니다."를 제공합니다. 오류

  16. 16

    NLTK-청크 문법이 쉼표를 읽지 않습니다.

  17. 17

    Pytorch의 사전 훈련 된 모델에서 저장된 토크 나이저를로드하는 방법

  18. 18

    Environment.getExternalStoragePublicDirectory는 내부 저장소를 제공합니다.

  19. 19

    이미지를 나타내는 여러 Numpy 배열 목록을 디스크에 저장합니다.

  20. 20

    Extjs 4.2 store.getRange는 이전에로드 된 저장소의 데이터를 제공합니다.

  21. 21

    토큰이 문서에 나타나는 횟수를 계산합니다.

  22. 22

    다크 / 라이트 모드 토글을 위해 쿠키를 저장하는 방법은 무엇입니까?

  23. 23

    별표 문자를 무시하도록 stanfordNLP 토크 나이저를 사용자 정의하는 방법은 무엇입니까?

  24. 24

    wc -c는 나에게 하나의 추가 문자 수를 제공합니다.

  25. 25

    Python NLTK는 고정 된 문장 패턴을 해석하고 토큰 화합니다.

  26. 26

    "공백"규칙 만있는 공간 토크 나이저

  27. 27

    Jenkins는 비공개 git 저장소에 오류를 제공합니다.

  28. 28

    페이지 리디렉션 스크립트는 나에게 리디렉션 루프를 제공합니다.

  29. 29

    spacy 사용자 정의 토크 나이 저는 단어를 그룹화하지 않습니다.

뜨겁다태그

보관