有一些标准的停止列表,其中的“ a of of not”一词要从语料库中删除。但是,我想知道,停靠站列表是否应逐案更改?
例如,我从一本期刊中获得了1万篇文章,然后由于文章的结构,基本上,您会在每篇文章中看到诸如“介绍,评论,结论,页面”之类的词。我担心的是:我们应该从语料库中删除这些单词吗?(每个文档都有这些词吗?)感谢每个评论和建议。
我正在研究类似的问题,但涉及文本分类。根据我的经验,最好有一组特定于域的停用词列表以及standard。列表。否则,如果您尝试分析频率矩阵,则会在术语“频率矩阵”中出现诸如“介绍”,“评论”等词。通过为这些领域特定的关键字赋予更多权重,它可能会误导您的模型。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句