清理熊猫列中的文本

用户名

我在清理此数据集时遇到问题:

我需要Text在此数据集中绘制列:

Date                 Account  Text
0   [28/07/2018]    412 ‎   [MAN]
1   [28/07/2018]    21403   ‎['photo', 'photo']
2   [28/07/2018]    3193    [Describe, Links']
3   [28/07/2018]    4239    ‎['photo']
4   [03/08/2018]    051     []
5   [03/08/2018]    21      []
6   [16/08/2018]    4124    ['XCUUE', 'HB']
7   [16/08/2018]    412     [program]
8   [16/08/2018]    410     []
9   [16/08/2018]    9543    [Links]

具体来说,我需要处理“文本”列。该列中的行是标记化的结果,因此将它们包含在方括号中。我想做的是将这些单词绘制在单词云或简单的条形图中以研究它们的频率。我遇到的问题是同一个单词的重复,例如当我尝试绘制频率时出现“照片”“照片”。

我的代码用于为wordcloud准备数据集。

comment_words = '' 
stopwords = remove_stop() # you can use a default one
  
for val in df['Text']: 
        
    tokens = val.split() 
      
    for i in range(len(tokens)): 
        tokens[i] = tokens[i].str.lower()
      
    comment_words += " ".join(tokens)+" "
  
wordcloud = WordCloud(width = 800, height = 800, 
                background_color ='white', 
                stopwords = stopwords, 
                min_font_size = 10).generate(comment_words) 

如果您可以查看或尝试使用其他方法来解决此问题,我将不胜感激,即使用重复的单词(频率很重要,因此我不能删除任何重复的行),最后使用引号'来解决此问题。谢谢

穆吉加

如果要删除记录中的重复项(通过删除记录中的重复项来绘制wordcloud没有意义):

import pandas as pd
from wordcloud import WordCloud
from nltk.corpus import stopwords
import matplotlib.pyplot as plt

def plot(words):
  wordcloud = WordCloud(width = 800, height = 800, 
                  background_color ='white', 
                  stopwords = stopwords.words('english'), 
                  min_font_size = 10).generate(" ".join(words)) 

  plt.figure()
  plt.imshow(wordcloud, interpolation="bilinear")
  plt.axis("off")
  plt.show()

# Data
df = pd.DataFrame({'Text':
                   [
                    ['MAN'], 
                    ['photo', 'photo'], 
                    ['Describe', 'Links'],
                    ['photo'], [], [], 
                    ['XCUUE', 'HB'], 
                    ['program'], [], 
                    ['Links']
                   ]})

# Remove duplicates within records
words = df['Text'].apply(lambda x: list(set(x))).tolist()
words = [item for sublist in words for item in sublist]

plot(words)

在此处输入图片说明

使单词不区分大小写

plot([w.lower() for w in words])

在此处输入图片说明

最后,如果您的数据框记录是未标记的文本,如下所示

df = pd.DataFrame({'Text': ['MAN', 'photo photo', 'Describe Links', 'photo', ' ', ' ', 'XCUUE HB', 'program', 'Links']})

那么你也能

words = df['Text'].apply(lambda x: list(set(x.split()))).tolist()
words = [item for sublist in words for item in sublist]
plot([w.lower() for w in words])

在此处输入图片说明

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何清理熊猫数据框列中的文本数据

来自分类Dev

清理熊猫数据框中的dict列

来自分类Dev

熊猫csv-清理错误列中的数据

来自分类Dev

在熊猫数据框中编码文本列

来自分类Dev

根据拼写清理列?熊猫

来自分类Dev

熊猫-在列中拆分文本并在行中搜索

来自分类Dev

将简单的文本清理到数据框框架的所有列中

来自分类Dev

清理熊猫数据框列,从其他数据框中显示的字符串中删除部分

来自分类Dev

清理熊猫数据框列,从其他数据框中显示的字符串中删除部分

来自分类Dev

Scrapy - 从嵌套链接[/a] 等中清理文本[/p]

来自分类Dev

如何根据熊猫中的列从特定行中提取文本?

来自分类Dev

提取熊猫列中两个标记之间的文本

来自分类Dev

如何在熊猫数据框的列中搜索特定文本

来自分类Dev

清理导入的熊猫数据框中的标头

来自分类Dev

re.match()在清理熊猫数据框中

来自分类Dev

如何清理大数据并在熊猫中重塑它?

来自分类Dev

如何清理熊猫数据框中的图像格式?

来自分类Dev

根据另一列中的相同值组合熊猫数据框列中的文本值

来自分类Dev

熊猫-根据不同列中的空白单元格将文本输入到列中

来自分类Dev

排序/清理列中的数据混乱的地方

来自分类Dev

清理多列中的数据,然后连接

来自分类Dev

SQL Server 中的递归清理列

来自分类Dev

熊猫中的数据清理:如果特定字符串包含在另一列中,则将其替换为空值

来自分类Dev

在熊猫中读取文本文件时,左贪婪列与右贪婪列分配

来自分类Dev

从其他包含文本格式数据的列中创建熊猫数据框的列

来自分类Dev

OpenCV中的文本清理器,例如ImageMagicK脚本

来自分类Dev

如何从熊猫数据框中的列中删除不需要的文本

来自分类Dev

熊猫中的层次列

来自分类Dev

遍历熊猫中的列

Related 相关文章

  1. 1

    如何清理熊猫数据框列中的文本数据

  2. 2

    清理熊猫数据框中的dict列

  3. 3

    熊猫csv-清理错误列中的数据

  4. 4

    在熊猫数据框中编码文本列

  5. 5

    根据拼写清理列?熊猫

  6. 6

    熊猫-在列中拆分文本并在行中搜索

  7. 7

    将简单的文本清理到数据框框架的所有列中

  8. 8

    清理熊猫数据框列,从其他数据框中显示的字符串中删除部分

  9. 9

    清理熊猫数据框列,从其他数据框中显示的字符串中删除部分

  10. 10

    Scrapy - 从嵌套链接[/a] 等中清理文本[/p]

  11. 11

    如何根据熊猫中的列从特定行中提取文本?

  12. 12

    提取熊猫列中两个标记之间的文本

  13. 13

    如何在熊猫数据框的列中搜索特定文本

  14. 14

    清理导入的熊猫数据框中的标头

  15. 15

    re.match()在清理熊猫数据框中

  16. 16

    如何清理大数据并在熊猫中重塑它?

  17. 17

    如何清理熊猫数据框中的图像格式?

  18. 18

    根据另一列中的相同值组合熊猫数据框列中的文本值

  19. 19

    熊猫-根据不同列中的空白单元格将文本输入到列中

  20. 20

    排序/清理列中的数据混乱的地方

  21. 21

    清理多列中的数据,然后连接

  22. 22

    SQL Server 中的递归清理列

  23. 23

    熊猫中的数据清理:如果特定字符串包含在另一列中,则将其替换为空值

  24. 24

    在熊猫中读取文本文件时,左贪婪列与右贪婪列分配

  25. 25

    从其他包含文本格式数据的列中创建熊猫数据框的列

  26. 26

    OpenCV中的文本清理器,例如ImageMagicK脚本

  27. 27

    如何从熊猫数据框中的列中删除不需要的文本

  28. 28

    熊猫中的层次列

  29. 29

    遍历熊猫中的列

热门标签

归档