使用熊猫计算不包含特定单词的文章数

经济学家_阿亚瓦斯卡

我正在尝试查找JSON文件的哪些行包含不包含某些单词的文本。我尝试这样做的方法是通过以下方式通过熊猫和正则表达式进行操作:

# import json module for parsing
import json
import re
import pandas

keywords1 = ('economic', 'economy', 'economies', 'Economic', 'Economy', 'Economies')
keywords2 = ('uncertain', 'uncertainty', 'uncertanties', 'Uncertain', 'Uncertainty', 'Uncertanties')

for i in range(2005,2016):
    df = pandas.DataFrame([json.loads(l) for l in open('TH500_%d.json' % i)])

# match keywords
    matchingbodies = df[~df.body.str.contains("|".join(keywords1))&~df.body.str.contains("|".join(keywords2))].body
# Count by row

    counts = matchingbodies.groupby(lambda x: x.axes).agg(len)

    print(counts)

想法是按行,轴对它进行分组,但是出现以下错误:AttributeError: 'Series' object has no attribute 'df'我知道我可能在犯一个愚蠢的错误...干杯

耶斯列尔

我认为您是否需要分组依据index

counts = matchingbodies.groupby(df.index).size()

或者:

counts = matchingbodies.groupby(level=0).size()

编辑:

看来您需要:

matchingbodies = df.loc[(~df.body.str.contains("|".join(keywords1)) &
                        (~df.body.str.contains("|".join(keywords2))), 'body']

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用熊猫计算不包含特定单词的文章数

来自分类Dev

如何计算包含特定单词的文档?

来自分类Dev

对不包含特定单词的范围求和

来自分类Dev

使用jQuery计算特定单词

来自分类Dev

计算变量中使用的特定单词?

来自分类Dev

使用REGEX获取句子中不包含特定单词的特定字符串?

来自分类Dev

对不包含特定单词的句子使用正则表达式匹配

来自分类Dev

如何获取不包含特定单词的所有行?

来自分类Dev

查找句子中是否不包含特定单词

来自分类Dev

查找不包含特定单词的字符串

来自分类Dev

包含单词,但不包含特定单词

来自分类Dev

计算文本文件中几篇文章中特定单词的出现频率

来自分类Dev

在熊猫中使用Regex提取特定单词

来自分类Dev

在熊猫中使用Regex提取特定单词

来自分类Dev

不立即先于数量的特定单词后搜索数

来自分类Dev

使用awk计算文本中特定单词的实例

来自分类Dev

当链接不包含特定单词时,捕获所有出现的单词

来自分类Dev

如何计算Google表格中的特定单词而不匹配单词的各个部分

来自分类Dev

删除熊猫列中的特定单词

来自分类Dev

熊猫:搜索并返回在列中包含特定单词的数据框

来自分类Dev

是否有熊猫函数来计算特定单词之后出现的元素?

来自分类Dev

计算包含特定单词(“ Hey”)的特定行中包含特定值(“ N”)的单元格的数量

来自分类Dev

计算包含特定单词(“ Hey”)的特定行中包含特定值(“ N”)的单元格的数量

来自分类Dev

BeautifulSoup查找包含特定单词的链接

来自分类Dev

如何排除包含特定单词的句子

来自分类Dev

如何查找包含特定单词的跨度

来自分类Dev

提取包含特定单词的句子

来自分类Dev

删除包含特定单词的对象/字段

来自分类Dev

Rails查找包含特定单词的记录

Related 相关文章

  1. 1

    使用熊猫计算不包含特定单词的文章数

  2. 2

    如何计算包含特定单词的文档?

  3. 3

    对不包含特定单词的范围求和

  4. 4

    使用jQuery计算特定单词

  5. 5

    计算变量中使用的特定单词?

  6. 6

    使用REGEX获取句子中不包含特定单词的特定字符串?

  7. 7

    对不包含特定单词的句子使用正则表达式匹配

  8. 8

    如何获取不包含特定单词的所有行?

  9. 9

    查找句子中是否不包含特定单词

  10. 10

    查找不包含特定单词的字符串

  11. 11

    包含单词,但不包含特定单词

  12. 12

    计算文本文件中几篇文章中特定单词的出现频率

  13. 13

    在熊猫中使用Regex提取特定单词

  14. 14

    在熊猫中使用Regex提取特定单词

  15. 15

    不立即先于数量的特定单词后搜索数

  16. 16

    使用awk计算文本中特定单词的实例

  17. 17

    当链接不包含特定单词时,捕获所有出现的单词

  18. 18

    如何计算Google表格中的特定单词而不匹配单词的各个部分

  19. 19

    删除熊猫列中的特定单词

  20. 20

    熊猫:搜索并返回在列中包含特定单词的数据框

  21. 21

    是否有熊猫函数来计算特定单词之后出现的元素?

  22. 22

    计算包含特定单词(“ Hey”)的特定行中包含特定值(“ N”)的单元格的数量

  23. 23

    计算包含特定单词(“ Hey”)的特定行中包含特定值(“ N”)的单元格的数量

  24. 24

    BeautifulSoup查找包含特定单词的链接

  25. 25

    如何排除包含特定单词的句子

  26. 26

    如何查找包含特定单词的跨度

  27. 27

    提取包含特定单词的句子

  28. 28

    删除包含特定单词的对象/字段

  29. 29

    Rails查找包含特定单词的记录

热门标签

归档