Python으로 데이터 프레임의 열에서 불용어 제거

Adrián

웹 사이트에서 단어 목록을 추출하여 데이터 프레임에 저장했습니다 . 이제 필요한 것은 "Palabras"열에서 이러한 단어 중 일부를 제거하고 처음 500 개의 레코드 만 유지하는 것입니다.

이것은 지금까지 내 코드입니다.

import requests
wiki_url = "https://es.wiktionary.org/wiki/Wikcionario:Frecuentes-(1-1000)-Subt%C3%ADtulos_de_pel%C3%ADculas"
wiki_texto = requests.get(wiki_url).text
from bs4 import BeautifulSoup
wiki_datos = BeautifulSoup(wiki_texto, "html")
wiki_filas = wiki_datos.findAll("tr")
print(wiki_filas[1])

print("...............................")

wiki_celdas = wiki_datos.findAll("td")
print(wiki_celdas[0:])
fila_1 = wiki_celdas[0:]
info_1 = [elemento.get_text() for elemento in fila_1]
print(fila_1)
print(info_1)
info_1[0] = int(float(info_1[0]))
print(info_1)


print("...............................")

num_or = [int(float(elem.findAll("td")[0].get_text())) for elem in wiki_filas[1:]]
palabras = [elem.findAll("td")[1].get_text().rstrip() for elem in wiki_filas[1:]]
frecuencia = [elem.findAll("td")[2].get_text().rstrip() for elem in wiki_filas[1:]]
print(num_or[0:])
print(palabras[0:])
print(frecuencia[0:])

from pandas import DataFrame
tabla = DataFrame([num_or, palabras, frecuencia]).T
tabla.columns = ["Núm. orden", "Palabras", "Frecuencia"]
print(tabla.head())
print(tabla)

print("...............................")

import nltk
nltk.download()
from nltk.corpus import stopwords 
prep = stopwords.words('spanish')
print(prep)

여기에 이미지 설명 입력

그래서 제가 필요한 것은이 코드에 포함 된 단어 목록을 제거하는 것입니다.

stopwords.words ( 'spanish')

"Palabras"열에서 처음 500 개의 레코드 만 유지합니다 (빈도가 높은 단어).

import nltk
nltk.download()
from nltk.corpus import stopwords 
prep = stopwords.words('spanish')

미리 감사드립니다!

chitown88

웹 사이트에서 단어 목록을 추출하여 사전에 저장했습니다.

참고 : 실제로는 데이터 프레임에 저장했습니다.

사용할 수 있습니다 isin. 기본적으로 열의 단어가 불용 단어 'Palabras'목록에 있는 행을 가져 오려고합니다. 따라서 해당 행을 필터링 한 다음 ~. 이미 정렬되어 있으므로.head(500)

tabla = tabla[~tabla['Palabras'].isin(prep)].head(500)

또한 html에는 table태그 가 포함되어 있기 때문에 팬더 .read_html()사용하는 것을 고려할 것입니다. 코드를 상당히 줄일 수 있습니다.

전체 코드, 동일한 결과 :

import nltk
import pandas as pd
#nltk.download()
from nltk.corpus import stopwords 
prep = stopwords.words('spanish')
print(prep)



tabla_beta = pd.read_html(wiki_url)[0]
tabla_beta.columns = ["Núm. orden", "Palabras", "Frecuencia"]
tabla_beta = tabla_beta[~tabla_beta['Palabras'].isin(prep)].head(500)

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

R 데이터 프레임 열에서 불용어 제거

분류에서Dev

데이터 프레임에서 불용어 제거

분류에서Dev

데이터 프레임에서 불용어 제거

분류에서Dev

Python의 데이터 프레임에서 영구적으로 열 제거

분류에서Dev

데이터 프레임 (Python)에서 불용어를 제거하려면 어떻게해야합니까?

분류에서Dev

열 데이터 프레임 내의 문자열에서 단어 제거

분류에서Dev

데이터 프레임의 행에서 단어 제거

분류에서Dev

시리즈의 데이터 프레임 열에서 단어 제거

분류에서Dev

다른 데이터 프레임의 열에있는 다른 단어 목록에서 데이터 프레임 열의 각 행에있는 단어 제거

분류에서Dev

R의 다른 데이터 프레임 내의 열을 기반으로 데이터 프레임에서 변수 제거

분류에서Dev

여러 열을 기반으로 pandas 데이터 프레임에서 행 제거

분류에서Dev

Python을 사용하여 Pandas 데이터 프레임 열에서 잘못된 파일 이름 문자 제거

분류에서Dev

Scala 데이터 프레임의 열에있는 문자열에서 조건부로 텍스트를 제거하려면 어떻게해야합니까?

분류에서Dev

R : 데이터 프레임의 열에서 행 값을 기준으로 행 제거

분류에서Dev

두 열의 값을 기반으로 데이터 프레임 팬더에서 중복 제거

분류에서Dev

r의 접미사로 데이터 프레임에서 벡터 제거

분류에서Dev

열의 값을 기반으로 pandas 데이터 프레임에서 행 삭제

분류에서Dev

대량 파이썬 데이터 프레임에서 단어 수를 기반으로 키워드 제거

분류에서Dev

데이터 프레임의 열에서 소수 제거

분류에서Dev

다른 데이터 프레임의 일치하는 열을 기반으로 임의의 양의 행 제거

분류에서Dev

Python Pandas : 다른 데이터 프레임의 문자열 주석에서 데이터 프레임 범주의 최대 값 제거

분류에서Dev

Python Pandas 데이터 프레임은 열의 목록 내에서 dict에서 특정 키를 제거합니다.

분류에서Dev

Python의 데이터 프레임에서 일치하는 쌍 제거

분류에서Dev

Python : 중복을 제거하지 않고 한 데이터 프레임의 열 값을 다른 데이터 프레임에서 바꾸는 방법

분류에서Dev

Pandas 데이터 프레임의 열 이름에서 타임 스탬프 제거

분류에서Dev

R을 사용하여 데이터 프레임에서 열 제거

분류에서Dev

조건을 사용하여 pandas 데이터 프레임에서 열 제거

분류에서Dev

R의 데이터 프레임에서 중복 된 열을 제거하려면 어떻게해야합니까?

분류에서Dev

Python 데이터 프레임에서 원하지 않는 열 제거

Related 관련 기사

  1. 1

    R 데이터 프레임 열에서 불용어 제거

  2. 2

    데이터 프레임에서 불용어 제거

  3. 3

    데이터 프레임에서 불용어 제거

  4. 4

    Python의 데이터 프레임에서 영구적으로 열 제거

  5. 5

    데이터 프레임 (Python)에서 불용어를 제거하려면 어떻게해야합니까?

  6. 6

    열 데이터 프레임 내의 문자열에서 단어 제거

  7. 7

    데이터 프레임의 행에서 단어 제거

  8. 8

    시리즈의 데이터 프레임 열에서 단어 제거

  9. 9

    다른 데이터 프레임의 열에있는 다른 단어 목록에서 데이터 프레임 열의 각 행에있는 단어 제거

  10. 10

    R의 다른 데이터 프레임 내의 열을 기반으로 데이터 프레임에서 변수 제거

  11. 11

    여러 열을 기반으로 pandas 데이터 프레임에서 행 제거

  12. 12

    Python을 사용하여 Pandas 데이터 프레임 열에서 잘못된 파일 이름 문자 제거

  13. 13

    Scala 데이터 프레임의 열에있는 문자열에서 조건부로 텍스트를 제거하려면 어떻게해야합니까?

  14. 14

    R : 데이터 프레임의 열에서 행 값을 기준으로 행 제거

  15. 15

    두 열의 값을 기반으로 데이터 프레임 팬더에서 중복 제거

  16. 16

    r의 접미사로 데이터 프레임에서 벡터 제거

  17. 17

    열의 값을 기반으로 pandas 데이터 프레임에서 행 삭제

  18. 18

    대량 파이썬 데이터 프레임에서 단어 수를 기반으로 키워드 제거

  19. 19

    데이터 프레임의 열에서 소수 제거

  20. 20

    다른 데이터 프레임의 일치하는 열을 기반으로 임의의 양의 행 제거

  21. 21

    Python Pandas : 다른 데이터 프레임의 문자열 주석에서 데이터 프레임 범주의 최대 값 제거

  22. 22

    Python Pandas 데이터 프레임은 열의 목록 내에서 dict에서 특정 키를 제거합니다.

  23. 23

    Python의 데이터 프레임에서 일치하는 쌍 제거

  24. 24

    Python : 중복을 제거하지 않고 한 데이터 프레임의 열 값을 다른 데이터 프레임에서 바꾸는 방법

  25. 25

    Pandas 데이터 프레임의 열 이름에서 타임 스탬프 제거

  26. 26

    R을 사용하여 데이터 프레임에서 열 제거

  27. 27

    조건을 사용하여 pandas 데이터 프레임에서 열 제거

  28. 28

    R의 데이터 프레임에서 중복 된 열을 제거하려면 어떻게해야합니까?

  29. 29

    Python 데이터 프레임에서 원하지 않는 열 제거

뜨겁다태그

보관