使用主题模型,我们应该如何设置“停用词”列表?

红宝石

有一些标准的停止列表,其中的“ a of of not”一词要从语料库中删除。但是,我想知道,停靠站列表是否应逐案更改?

例如,我从一本期刊中获得了1万篇文章,然后由于文章的结构,基本上,您会在每篇文章中看到诸如“介绍,评论,结论,页面”之类的词。我担心的是:我们应该从语料库中删除这些单词吗?(每个文档都有这些词吗?)感谢每个评论和建议。

病毒

我正在研究类似的问题,但涉及文本分类。根据我的经验,最好有一组特定于域的停用词列表以及standard。列表。否则,如果您尝试分析频率矩阵,则会在术语“频率矩阵”中出现诸如“介绍”,“评论”等词。通过为这些领域特定的关键字赋予更多权重,它可能会误导您的模型。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

我们应该如何使用微服务构建我们的模型?

来自分类Dev

什么是ButtonBarLayout,我们应该如何使用它?

来自分类Dev

我们如何全局设置菜单列表

来自分类Dev

我们应该使用哪个CGImageAlphaInfo?

来自分类Dev

我们如何使用git hub列表视图库

来自分类Dev

我们应该如何处理此错误“列表索引必须是整数,而不是unicode”

来自分类Dev

NLTK停用词列表

来自分类Dev

R的停用词列表

来自分类Dev

我们如何设置启动任务

来自分类Dev

我们如何设置启动任务

来自分类Dev

为什么我们使用序列化程序而不是完全干净来验证模型,或者我们应该互换使用它们?

来自分类Dev

我们是否应该将结果保存在我们可以随时使用数据计算的数据库模型中?

来自分类Dev

我们如何在Sencha ExtJS 6.0.2版中全局设置我们要使用的时区?

来自分类Dev

如果我们在程序中使用延迟,我们应该使用cron吗?

来自分类Dev

我们如何对AWS CDK代码进行单元测试?我们应该吗?

来自分类Dev

我们如何创建一个我们应该实现的对象的“骨架类型”?

来自分类Dev

我们应该使用序列还是身份作为我们的主键?

来自分类Dev

如何使用QUANTEDA,R获取从数据集中删除的停用词类型列表

来自分类Dev

如何使用文本文件从列表中删除停用词

来自分类Dev

我们应该如何使用android 4.4中添加的mipmap文件夹?

来自分类Dev

我们应该如何在Function App中使用Azure密钥库?

来自分类Dev

我们应该如何使用rbindlist.disk.frame选择压缩率?

来自分类Dev

我们应该如何在 Django 中使用 google 分析脚本?

来自分类Dev

我们应该如何在 Typescript 中使用猫鼬?

来自分类Dev

使用列表理解删除Python列表中的停用词

来自分类Dev

我们是否应该使用拥抱面小写输入数据来(预)训练BERT无案例模型?

来自分类Dev

我们应该使用“严格使用”吗?使用第三方库(主干,下划线)?我们如何知道它们“严格”兼容?

来自分类Dev

我们应该总是使用@NotNull或@Nullable吗?

来自分类Dev

我们什么时候应该使用预取?

Related 相关文章

  1. 1

    我们应该如何使用微服务构建我们的模型?

  2. 2

    什么是ButtonBarLayout,我们应该如何使用它?

  3. 3

    我们如何全局设置菜单列表

  4. 4

    我们应该使用哪个CGImageAlphaInfo?

  5. 5

    我们如何使用git hub列表视图库

  6. 6

    我们应该如何处理此错误“列表索引必须是整数,而不是unicode”

  7. 7

    NLTK停用词列表

  8. 8

    R的停用词列表

  9. 9

    我们如何设置启动任务

  10. 10

    我们如何设置启动任务

  11. 11

    为什么我们使用序列化程序而不是完全干净来验证模型,或者我们应该互换使用它们?

  12. 12

    我们是否应该将结果保存在我们可以随时使用数据计算的数据库模型中?

  13. 13

    我们如何在Sencha ExtJS 6.0.2版中全局设置我们要使用的时区?

  14. 14

    如果我们在程序中使用延迟,我们应该使用cron吗?

  15. 15

    我们如何对AWS CDK代码进行单元测试?我们应该吗?

  16. 16

    我们如何创建一个我们应该实现的对象的“骨架类型”?

  17. 17

    我们应该使用序列还是身份作为我们的主键?

  18. 18

    如何使用QUANTEDA,R获取从数据集中删除的停用词类型列表

  19. 19

    如何使用文本文件从列表中删除停用词

  20. 20

    我们应该如何使用android 4.4中添加的mipmap文件夹?

  21. 21

    我们应该如何在Function App中使用Azure密钥库?

  22. 22

    我们应该如何使用rbindlist.disk.frame选择压缩率?

  23. 23

    我们应该如何在 Django 中使用 google 分析脚本?

  24. 24

    我们应该如何在 Typescript 中使用猫鼬?

  25. 25

    使用列表理解删除Python列表中的停用词

  26. 26

    我们是否应该使用拥抱面小写输入数据来(预)训练BERT无案例模型?

  27. 27

    我们应该使用“严格使用”吗?使用第三方库(主干,下划线)?我们如何知道它们“严格”兼容?

  28. 28

    我们应该总是使用@NotNull或@Nullable吗?

  29. 29

    我们什么时候应该使用预取?

热门标签

归档