带有插入符号问题的Text2Vec分类

埃德

一些上下文:在R中使用文本分类和大型稀疏矩阵

我一直在使用text2vecpackage和来解决文本多类分类问题caret该计划text2vec用于构建文档术语矩阵,修剪词汇表和各种预处理内容,然后尝试使用不同的模型,caret但是在训练时我无法获得结果,插入符号会引发一些类似于以下内容的错误:

+ Fold02.Rep1: cost=0.25 
predictions failed for Fold01.Rep1: cost=0.25 Error in as.vector(data) : 
no method for coercing this S4 class to a vector

所有的折叠和重复都会发生这种情况。我认为将产生的文档项矩阵转换text2vec为向量时会出现问题,因为插入符号需要进行一些计算,但是老实说我不确定,这是此问题的主要原因。

所使用的代码以及部分跳过的内容如下所示。请注意,我caret提供的是text2vec返回的文档期限矩阵的直接结果,但我不确定这是否可以。

library(text2vec)
library(caret)
data("movie_review")
train = movie_review[1:4000, ]
test = movie_review[4001:5000, ]

it <- itoken(train$review, preprocess_function = tolower, tokenizer = word_tokenizer)
vocab <- create_vocabulary(it, stopwords = tokenizers::stopwords())
pruned_vocab <- prune_vocabulary(vocab, term_count_min = 10, doc_proportion_max = 0.5, doc_proportion_min = 0.001)

vectorizer <- vocab_vectorizer(pruned_vocab)
it = itoken(train$review, tokenizer = word_tokenizer, ids = train$id)
dtm_train = create_dtm(it, vectorizer)
it = itoken(test$review, tokenizer = word_tokenizer, ids = test$id)
dtm_test = create_dtm(it, vectorizer)

ctrl.svm.1 <- trainControl(method="repeatedcv",
                           number=10,
                           repeats=5,
                           summaryFunction = multiClassSummary,
                           verboseIter = TRUE)

fit.svm.1 <- train(x = dtm_train, y= as.factor(train$sentiment), 
                   method="svmLinear2",  
                   metric="Accuracy", 
                   trControl = ctrl.svm.1, 
                   scale = FALSE, verbose = TRUE)

如我所说,启动train()函数时出现问题。dtm_train对象属于以下类:

[1] "dgCMatrix"
attr(,"package")
[1] "Matrix"

结构看起来像这样:

str(dtm_train)
> Formal class 'dgCMatrix' [package "Matrix"] with 6 slots
  ..@ i       : int [1:368047] 2582 2995 3879 3233 2118 2416 2468 2471 3044 3669 ...
  ..@ p       : int [1:6566] 0 0 3 4 4 10 10 14 14 22 ...
  ..@ Dim     : int [1:2] 4000 6565
  ..@ Dimnames:List of 2
  .. ..$ : chr [1:4000] "5814_8" "2381_9" "7759_3" "3630_4" ...
  .. ..$ : chr [1:6565] "floriane" "lil" "elm" "kolchak" ...
  ..@ x       : num [1:368047] 1 1 1 1 1 1 2 2 1 3 ...
  ..@ factors : list()

我究竟做错了什么?如果文档中暗示可以插入符,为什么插入符不能使用此类数据?

phiver

如果您将S4类dtm_train转换成一个简单的矩阵,则代码将起作用。

fit.svm.1 <- train(x = as.matrix(dtm_train), y= as.factor(train$sentiment), 
                   method="svmLinear2",  
                   metric="Accuracy", 
                   trControl = ctrl.svm.1, 
                   scale = FALSE, verbose = TRUE)

不要忘记对dtm_test做同样的事情,否则预测函数也会抱怨。

pred <- predict(fit.svm.1, newdata = as.matrix(dtm_test)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

从 text2vec 获取 LDAvis json

来自分类Dev

使用带有插入符号包的分类变量进行knnImpute

来自分类Dev

R2中的text2vec转换新数据?

来自分类Dev

R2中的text2vec转换新数据?

来自分类Dev

我无法使用text2vec为测试数据创建tf-idf矩阵

来自分类Dev

text2vec词嵌入:复合一些标记,但不是全部

来自分类Dev

使用R中的text2vec计算基于未加权词袋的TCM?

来自分类Dev

归一化主题文档概率 text2vec R

来自分类Dev

带有符号的变量的Javascript问题

来自分类Dev

如何在 text2vec 包中使用 prepare_analogy_questions 和 check_analogy_accuracy 函数?

来自分类Dev

R-ggplot2分类变量的重排序(带有重排序功能的问题)

来自分类Dev

带有OO的模板导致未解决的外部符号问题

来自分类Dev

在 sql 查询中使用带有 AND 的“<”符号时遇到的问题

来自分类Dev

关于具有2个特征的Tensorflow分类模型的问题

来自分类Dev

如何为特定范围创建和插入带有分类变量的列

来自分类Dev

带有分类预测变量的回归中的标准化系数:有问题

来自分类Dev

带有@符号的案例

来自分类Dev

带有@符号的键名

来自分类Dev

带有符号&的子集

来自分类Dev

带有Angular 2问题的Kendo UI

来自分类Dev

如何一次在R中的插入符号中查找所有算法的算法类型(回归,分类)?

来自分类Dev

带有特殊符号的Angular 2+ ngModel变量

来自分类Dev

PHP VSW <<<(带有三个插入符号的怪异语法)

来自分类Dev

带有插入符号的递归特征消除:度量“ROC”不是由汇总函数创建的

来自分类Dev

出了点问题;缺少所有RMSE指标值;使用插入符号训练功能

来自分类Dev

条形图上带有标签的Geom_text问题

来自分类Dev

带有codeigniter外键插入的doctrine2

来自分类Dev

带有继承映射的linq2db插入

来自分类Dev

使用GBM的插入符号错误,但并非没有插入符号

Related 相关文章

  1. 1

    从 text2vec 获取 LDAvis json

  2. 2

    使用带有插入符号包的分类变量进行knnImpute

  3. 3

    R2中的text2vec转换新数据?

  4. 4

    R2中的text2vec转换新数据?

  5. 5

    我无法使用text2vec为测试数据创建tf-idf矩阵

  6. 6

    text2vec词嵌入:复合一些标记,但不是全部

  7. 7

    使用R中的text2vec计算基于未加权词袋的TCM?

  8. 8

    归一化主题文档概率 text2vec R

  9. 9

    带有符号的变量的Javascript问题

  10. 10

    如何在 text2vec 包中使用 prepare_analogy_questions 和 check_analogy_accuracy 函数?

  11. 11

    R-ggplot2分类变量的重排序(带有重排序功能的问题)

  12. 12

    带有OO的模板导致未解决的外部符号问题

  13. 13

    在 sql 查询中使用带有 AND 的“<”符号时遇到的问题

  14. 14

    关于具有2个特征的Tensorflow分类模型的问题

  15. 15

    如何为特定范围创建和插入带有分类变量的列

  16. 16

    带有分类预测变量的回归中的标准化系数:有问题

  17. 17

    带有@符号的案例

  18. 18

    带有@符号的键名

  19. 19

    带有符号&的子集

  20. 20

    带有Angular 2问题的Kendo UI

  21. 21

    如何一次在R中的插入符号中查找所有算法的算法类型(回归,分类)?

  22. 22

    带有特殊符号的Angular 2+ ngModel变量

  23. 23

    PHP VSW <<<(带有三个插入符号的怪异语法)

  24. 24

    带有插入符号的递归特征消除:度量“ROC”不是由汇总函数创建的

  25. 25

    出了点问题;缺少所有RMSE指标值;使用插入符号训练功能

  26. 26

    条形图上带有标签的Geom_text问题

  27. 27

    带有codeigniter外键插入的doctrine2

  28. 28

    带有继承映射的linq2db插入

  29. 29

    使用GBM的插入符号错误,但并非没有插入符号

热门标签

归档