Python으로 데이터 프레임의 열에서 불용어 제거

debugcn 에 게시 Dev

107

Adrián

웹 사이트에서 단어 목록을 추출하여 데이터 프레임에 저장했습니다 . 이제 필요한 것은 "Palabras"열에서 이러한 단어 중 일부를 제거하고 처음 500 개의 레코드 만 유지하는 것입니다.

이것은 지금까지 내 코드입니다.

import requests
wiki_url = "https://es.wiktionary.org/wiki/Wikcionario:Frecuentes-(1-1000)-Subt%C3%ADtulos_de_pel%C3%ADculas"
wiki_texto = requests.get(wiki_url).text
from bs4 import BeautifulSoup
wiki_datos = BeautifulSoup(wiki_texto, "html")
wiki_filas = wiki_datos.findAll("tr")
print(wiki_filas[1])

print("...............................")

wiki_celdas = wiki_datos.findAll("td")
print(wiki_celdas[0:])
fila_1 = wiki_celdas[0:]
info_1 = [elemento.get_text() for elemento in fila_1]
print(fila_1)
print(info_1)
info_1[0] = int(float(info_1[0]))
print(info_1)


print("...............................")

num_or = [int(float(elem.findAll("td")[0].get_text())) for elem in wiki_filas[1:]]
palabras = [elem.findAll("td")[1].get_text().rstrip() for elem in wiki_filas[1:]]
frecuencia = [elem.findAll("td")[2].get_text().rstrip() for elem in wiki_filas[1:]]
print(num_or[0:])
print(palabras[0:])
print(frecuencia[0:])

from pandas import DataFrame
tabla = DataFrame([num_or, palabras, frecuencia]).T
tabla.columns = ["Núm. orden", "Palabras", "Frecuencia"]
print(tabla.head())
print(tabla)

print("...............................")

import nltk
nltk.download()
from nltk.corpus import stopwords 
prep = stopwords.words('spanish')
print(prep)

그래서 제가 필요한 것은이 코드에 포함 된 단어 목록을 제거하는 것입니다.

stopwords.words ( 'spanish')

"Palabras"열에서 처음 500 개의 레코드 만 유지합니다 (빈도가 높은 단어).

import nltk
nltk.download()
from nltk.corpus import stopwords 
prep = stopwords.words('spanish')

미리 감사드립니다!

chitown88

웹 사이트에서 단어 목록을 추출하여 사전에 저장했습니다.

참고 : 실제로는 데이터 프레임에 저장했습니다.

사용할 수 있습니다 isin. 기본적으로 열의 단어가 불용 단어 'Palabras'목록에 있는 행을 가져 오려고합니다. 따라서 해당 행을 필터링 한 다음 ~. 이미 정렬되어 있으므로.head(500)

tabla = tabla[~tabla['Palabras'].isin(prep)].head(500)

또한 html에는 table태그 가 포함되어 있기 때문에 팬더 .read_html()를 사용하는 것을 고려할 것입니다. 코드를 상당히 줄일 수 있습니다.

전체 코드, 동일한 결과 :

import nltk
import pandas as pd
#nltk.download()
from nltk.corpus import stopwords 
prep = stopwords.words('spanish')
print(prep)



tabla_beta = pd.read_html(wiki_url)[0]
tabla_beta.columns = ["Núm. orden", "Palabras", "Frecuencia"]
tabla_beta = tabla_beta[~tabla_beta['Palabras'].isin(prep)].head(500)

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-1

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Python으로 데이터 프레임의 열에서 불용어 제거

Python으로 데이터 프레임의 열에서 불용어 제거

R 데이터 프레임 열에서 불용어 제거

데이터 프레임에서 불용어 제거

데이터 프레임에서 불용어 제거

Python의 데이터 프레임에서 영구적으로 열 제거

데이터 프레임 (Python)에서 불용어를 제거하려면 어떻게해야합니까?

열 데이터 프레임 내의 문자열에서 단어 제거

데이터 프레임의 행에서 단어 제거

시리즈의 데이터 프레임 열에서 단어 제거

다른 데이터 프레임의 열에있는 다른 단어 목록에서 데이터 프레임 열의 각 행에있는 단어 제거

R의 다른 데이터 프레임 내의 열을 기반으로 데이터 프레임에서 변수 제거

여러 열을 기반으로 pandas 데이터 프레임에서 행 제거

Python을 사용하여 Pandas 데이터 프레임 열에서 잘못된 파일 이름 문자 제거

Scala 데이터 프레임의 열에있는 문자열에서 조건부로 텍스트를 제거하려면 어떻게해야합니까?

R : 데이터 프레임의 열에서 행 값을 기준으로 행 제거

두 열의 값을 기반으로 데이터 프레임 팬더에서 중복 제거

r의 접미사로 데이터 프레임에서 벡터 제거

열의 값을 기반으로 pandas 데이터 프레임에서 행 삭제

대량 파이썬 데이터 프레임에서 단어 수를 기반으로 키워드 제거

데이터 프레임의 열에서 소수 제거

다른 데이터 프레임의 일치하는 열을 기반으로 임의의 양의 행 제거

Python Pandas : 다른 데이터 프레임의 문자열 주석에서 데이터 프레임 범주의 최대 값 제거

Python Pandas 데이터 프레임은 열의 목록 내에서 dict에서 특정 키를 제거합니다.

Python의 데이터 프레임에서 일치하는 쌍 제거

Python : 중복을 제거하지 않고 한 데이터 프레임의 열 값을 다른 데이터 프레임에서 바꾸는 방법

Pandas 데이터 프레임의 열 이름에서 타임 스탬프 제거

R을 사용하여 데이터 프레임에서 열 제거

조건을 사용하여 pandas 데이터 프레임에서 열 제거

R의 데이터 프레임에서 중복 된 열을 제거하려면 어떻게해야합니까?

Python 데이터 프레임에서 원하지 않는 열 제거