如何从DTM采样75%的行?

埃雷·埃姆

如何采样DTM?我尝试了很多代码,但返回了相同的错误

dtm [splitter,]中的错误:尺寸数不正确

这是代码:

n <- dtm$nrow
splitter <- sample(1:n, round(n * 0.75))
train_set <- dtm[splitter, ]
valid_set <- dtm[-splitter, ]
phi

您可以为此使用Quanteda软件包。请参见下面的示例:

基于tm的原始数据集创建的数据示例:

library(tm)

data("crude")
crude <- as.VCorpus(crude)
crude <- tm_map(crude, stripWhitespace)
crude <- tm_map(crude, removePunctuation)
crude <- tm_map(crude, content_transformer(tolower))
crude <- tm_map(crude, removeWords, stopwords("english"))
crude <- tm_map(crude, stemDocument)

dtm <- DocumentTermMatrix(crude)


library(quanteda)

# Transform your dtm into a dfm for quanteda
my_dfm <- as.dfm(dtm)

# number of documents    
ndocs(my_dfm)
[1] 20

set.seed(4242)

# create training
train_set <- dfm_sample(my_dfm, 
                        size = round(ndoc(my_dfm) * 0.75),  # set sample size
                        margin = "documents")

# create test set by select the documents that do not match the documents in the training set.
test_set <- dfm_subset(my_dfm, !docnames(my_dfm) %in% docnames(train_set))

# number of documents in train
ndoc(train_set)
[1] 15

# number of documents in test
ndoc(test_set)
[1] 5

之后,您可以使用Quanteda函数convert将您的训练集和测试集转换为与topicmodels,lda,lsa等一起使用。有关?convert更多信息,请参见

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Adobe DTM-如何从DTM调用页面中定义的变量?

来自分类Dev

如何从R中的大文件中采样特定比例的行?

来自分类Dev

如何在保持行顺序的同时从Pandas DataFrame采样

来自分类Dev

R中的行采样

来自分类Dev

如何采样实数?

来自分类Dev

如何采样实数?

来自分类Dev

mipmapped 纹理是如何采样的?

来自分类Dev

如何删除特定列中少于75个字符(约10个单词)的行

来自分类Dev

从表中采样大量行

来自分类Dev

Pandas 重新采样缺失的行

来自分类Dev

如何从python中的特定类中采样一些行?

来自分类Dev

R:如何为数据框的每一行采样不同的列?

来自分类Dev

PySpark:如何重新采样频率

来自分类Dev

如何增量采样而不更换?

来自分类Dev

如何创建采样值矩阵

来自分类Dev

如何从正态分布中采样?

来自分类Dev

如何从变量中采样项目

来自分类Dev

指挥历史似乎缺少前75行

来自分类Dev

指挥历史似乎缺少前75行

来自分类Dev

给定C中的文件名,如何仅读取75个字符的每一行?

来自分类Dev

如何结合使用过采样和欠采样?学习失衡

来自分类Dev

如何在R中的DTM中查找项频率?

来自分类Dev

如何将数据帧转换为 DTM

来自分类Dev

从 R 中的两列重新采样行

来自分类Dev

如何将大熊猫时间序列df重新采样到代表某些度量的总和的新行?

来自分类Dev

一旦从pandas DataFrame中采样了一行,如何获取一个单元格的值?

来自分类Dev

如何对任意尺寸的Numpy数组重新采样?

来自分类Dev

如何对替换后的熊猫DataFrame进行采样?

来自分类Dev

如何比较熊猫的频率/采样率?