큰 텍스트를 문장과 단어로 토큰 화하는 방법

debugcn 에 게시 Dev

Gizelly

나는 포르투갈어로 nltk와 함께 일하고 있습니다.

그것은 내 텍스트입니다.

import numpy as np 
from nltk.corpus import machado, mac_morpho, floresta, genesis

from nltk.text import Text
ptext1 = Text(machado.words('romance/marm05.txt'), name="Memórias Póstumas de Brás Cubas (1881)")
ptext2 = Text(machado.words('romance/marm08.txt'), name="Dom Casmurro (1899)")
ptext3 = Text(genesis.words('portuguese.txt'), name="Gênesis")
ptext4 = Text(mac_morpho.words('mu94se01.txt'), name="Folha de Sao Paulo (1994)")

예를 들어 ptext4를 문장으로 나누고 단어로 나누고 싶습니다.

sentencas = nltk.sent_tokenize(ptext4)
palavras = nltk.word_tokenize(ptext4)

그러나 작동하지 않습니다. 오류는 예상되는 문자열 또는 바이트와 같은 객체입니다.

나는 이것을 시도했다 :

sentencas = [row for row in nltk.sent_tokenize(row)]

그러나 결과는 기대치가 아닙니다.

[In]sentencas
[Out] ['Fujimori']

내가 뭘 할 수 있니? 나는 그것에 새로운입니다.

자다

machado말뭉치 의 단어 목록 만 원하면 .words()함수를 사용하십시오 .

>>> from nltk.corpus import machado
>>> machado.words()

그러나 원시 텍스트를 처리하려면

>>> text = machado.raw('romance/marm08.txt')
>>> print(text)

이 관용구 사용

>>> from nltk import word_tokenize, sent_tokenize
>>> text = machado.raw('romance/marm08.txt')
>>> tokenized_text = [word_tokenize(sent) for sent in sent_tokenize(text)]

그리고 반복 관통 tokenized_text, 인 A는 list(list(str))이 작업을 수행 :

>>> for sent in tokenize_text:
...     for word in sent:
...         print(word)
...     break
...

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-1

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

큰 텍스트를 문장과 단어로 토큰 화하는 방법

큰 텍스트를 문장과 단어로 토큰 화하는 방법

아랍어 텍스트를 파이썬으로 문장으로 분할하거나 토큰 화하는 방법

단어에서 쉼표를 분리하는 방법 (토큰 화)

단어를 토큰 화하고 어간하는 함수를 만드는 방법

Elasticsearch에서 최대 단어 수를 기반으로 문장을 토큰 화하는 방법은 무엇입니까?

공백없이 두 단어로 결합 된 단어를 토큰 화하는 방법

단어 길이를 토큰으로 사용하여 문자열을 분할하는 방법

C progr. -문장에서 회 문의 수 찾기-계산을 수행하는 동안 단어를 토큰 화하는 루프를 설정하는 방법

여러 단어를 토큰 접두어로 일치시키는 방법

새로 고침 토큰을 액세스 토큰으로 교환하는 방법.

NLTK에서 토큰 화 된 결과에서 상위 3 개 단어를 얻는 방법

각 파일에 대한 토큰 화 결과를 별도의 새 텍스트 파일에 저장하는 방법은 무엇입니까?

배열에 문자를 추가하고 토큰 화하는 방법 C

어휘 분석 중에 토큰을 저장하는 방법

큰 형식의 텍스트를 국제화하는 방법

R의 사전에없는 단어를 토큰 화하는 방법은 무엇입니까?

AppDelegate에서 UIViewController로 장치 토큰을 전달하는 방법

큰 텍스트를 텍스트 필드로 구문 분석, 텍스트 시작에보기 위치를 설정하는 방법

다음 문자열 40 println "Hello", (5 + 6-4)를 토큰 화하는 동안 "-4"는 개별 토큰이 아닌 단일 토큰을 표시합니다.

iOS 장치 토큰 문자열을 다시 NSData로 변환하는 방법

토큰 JavaCC에서 "문자를 제외하는 방법

성과 이름을 하나의 토큰으로 토큰 화

Pandas 데이터 프레임에 포함 된 spaCy 토큰 화 된 텍스트의 불용어를 필터링하는 방법

텍스트 토큰 화 후 조금씩 다른 단어 빈도

xslt에서 단락을 토큰 화하는 방법

NLTK를 사용하여 데이터 프레임의 텍스트 열을 토큰 화하는 방법

Spring Boot로 CSRF 토큰을 활성화하는 방법

단어 토큰 사전을 벡터화하는 방법 (Bag of Word 구현)

별표 ( '*')를 토큰 화하는 방법은 무엇입니까?

Beautifulsoup을 사용할 때 텍스트 토큰을 얻는 방법