Vowpal Wabbit varinfo和ngrams:不存在的组合

尖叫猫头鹰

我正在尝试使用大众汽车来查找可预测某人是否会打开电子邮件的单词或短语。如果他们打开电子邮件,则目标为1,否则为0。我的数据如下所示:

1 |A this is a test
0 |A this test is only temporary
1 |A i bought a new polo shirt
1 |A that was a great online sale

我将其放入名为“ test1.txt”的文件中,然后运行以下代码来执行ngrams of 2并输出变量信息:

C:\~\vw>perl vw-varinfo.pl -V --ngram 2 test1.txt >> out.txt

当我查看输出时,有一些原始数据中没有的双语法例。这是一个错误还是我误解了。

输出:

FeatureName            HashVal   MinVal   MaxVal    Weight   RelScore
A^a                     239656     0.00     1.00   +0.1664    100.00%
A^is                      7514     0.00     1.00   +0.0772     46.38%
A^test                   12331     0.00     1.00   +0.0772     46.38%
A^this                  169573     0.00     1.00   +0.0772     46.38%
A^bought                245782     0.00     1.00   +0.0650     39.06%
A^i                     245469     0.00     1.00   +0.0650     39.06%
A^new                    51974     0.00     1.00   +0.0650     39.06%
A^polo                   48680     0.00     1.00   +0.0650     39.06%
A^shirt                  73882     0.00     1.00   +0.0650     39.06%
A^great                 220692     0.00     1.00   +0.0610     36.64%
A^online                147727     0.00     1.00   +0.0610     36.64%
A^sale                  242707     0.00     1.00   +0.0610     36.64%
A^that                  206586     0.00     1.00   +0.0610     36.64%
A^was                   223274     0.00     1.00   +0.0610     36.64%
A^a^bought              216990     0.00     0.00   +0.0000      0.00%
A^bought^great            7122     0.00     0.00   +0.0000      0.00%
A^great^i               190625     0.00     0.00   +0.0000      0.00%
A^i^is                   76227     0.00     0.00   +0.0000      0.00%
A^is^new                140536     0.00     0.00   +0.0000      0.00%
A^new^online             69117     0.00     0.00   +0.0000      0.00%
A^online^only           173498     0.00     0.00   +0.0000      0.00%
A^only^polo              51059     0.00     0.00   +0.0000      0.00%
A^polo^sale             131483     0.00     0.00   +0.0000      0.00%
A^sale^shirt            191329     0.00     0.00   +0.0000      0.00%
A^shirt^temporary        81555     0.00     0.00   +0.0000      0.00%
A^temporary^test         90632     0.00     0.00   +0.0000      0.00%
A^test^that              13689     0.00     0.00   +0.0000      0.00%
A^that^this             127863     0.00     0.00   +0.0000      0.00%
A^this^was               22011     0.00     0.00   +0.0000      0.00%
Constant                116060     0.00     0.00   +0.1465      0.00%
A^only                   62951     0.00     1.00   -0.0490    -29.47%
A^temporary              44641     0.00     1.00   -0.0490    -29.47%

例如,^bought^great实际上从未在任何原始输入行中发生。难道我做错了什么?

阿里耶夫

这是vw-varinfo中的错误。

可以通过vw单独运行来验证--invert_hash

$ vw --ngram 2 test1.txt --invert_hash train.ih

$ grep '^bought^great' train.ih
# no output

快速的部分解决方法是将权重为0.0的所有特征视为高度可疑,甚至可能是虚假的。不幸的是,有一些失踪过,因为一些功能vw-varinfo一无所知--ngram

我真的需要重写vw-varinfovw自从vw-varinfo编写以来,已经发生了很大的变化,再加vw-varinfo上编写时未达到最佳状态,重复了许多vw本身已经存在的跨功能逻辑我想到的新实现应该显着提高效率,并且不易受到此类错误的影响。

由于紧急情况,该项目被暂停。希望今年能有时间纠正。

不相关的提示:由于您正在执行二进制分类,因此应在{-1,1}中使用标签,而不是在{0,1}中使用标签,--loss_function logistic以取得最佳效果。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Vowpal Wabbit互动冗余

来自分类Dev

Vowpal Wabbit的梯度提升

来自分类Dev

Vowpal Wabbit输出的解释

来自分类Dev

原始预测(-r)和预测(-p)之间的Vowpal Wabbit差异

来自分类Dev

Vowpal Wabbit培训和测试数据格式

来自分类Dev

如何使用vowpal wabbit的--keep和--ignore功能?

来自分类Dev

Vowpal Wabbit中的多个标签

来自分类Dev

解释Vowpal Wabbit的基本输出

来自分类Dev

vowpal wabbit安装make文件

来自分类Dev

在Vowpal Wabbit中,名称空间和功能之间有什么区别?

来自分类Dev

--oaa 2和--loss_function = logistic在Vowpal Wabbit中的作用

来自分类Dev

--oaa 2和--loss_function = logistic在Vowpal Wabbit中的作用

来自分类Dev

我应该为Vowpal Wabbit的培训和测试指定相同的二次特征吗?

来自分类Dev

Vowpal Wabbit:拆分训练和测试文件时如何使用命令行参数

来自分类Dev

Vowpal Wabbit:低秩矩阵分解?

来自分类Dev

用于多标签分类的Vowpal Wabbit预测

来自分类Dev

在Vowpal Wabbit中获得保持损失

来自分类Dev

Vowpal Wabbit如何表示分类特征

来自分类Dev

在vowpal wabbit中设置权重的实用指南

来自分类Dev

Vowpal Wabbit-精确召回f测度

来自分类Dev

使用Vowpal Wabbit时计算AUC

来自分类Dev

从Vowpal Wabbit的内存中读取数据?

来自分类Dev

Vowpal Wabbit公式中的自适应更新

来自分类Dev

Vowpal Wabbit predictions for multi-label classification

来自分类Dev

Vowpal Wabbit多类线性分类

来自分类Dev

多标签分类的Vowpal Wabbit预测

来自分类Dev

在Vowpal Wabbit中获得保持损失

来自分类Dev

使用vowpal wabbit输出模型参数

来自分类Dev

Vowpal Wabbit多类线性分类