训练机器学习预测器

Swan87 发表于 Dev

天鹅87

我一直在尝试使用用户数据构建预测模型。模型的输入是文档的元数据（发布日期，标题等），文档标签是用户的偏好（喜欢/不喜欢）。我想问一些我希望能得到答案的问题：

喜欢的文档比不喜欢的文档更多。我在某处读到，如果有人训练一个模型使用一个标签的输入多于另一个标签的输入，这会以一种不好的方式影响性能（模型倾向于将所有输入归类为标签/结果中的大部分
是否有可能输入ML算法，例如逻辑回归在数字和单词以及如何做到这一点上是混合的，例如：

输入= [18,23,1,0，'cryptography']，标签= ['Like']

我们还可以使用向量（代表单词，使用tfidf等）作为输入特征（例如50维向量）吗？
为了使用文本数据构建预测模型，唯一的方法是从文档中提到的每个单词中派生一个词典，然后构造一个二进制输入来决定是否提到一个术语？使用这样的版本，尽管我们在收藏中失去了术语的权利，对吗？我们可以在监督学习模型中将某些东西作为word2vec向量用作单个输入吗？

感谢您的时间。

尼尔·麦圭根

您需要对较大的类进行欠采样（采取较小的随机样本以匹配较小的类的大小），对较小的类进行过度采样（引导样本），或者使用支持不平衡数据的算法-为此，您可以需要阅读文档。
您需要将您的单词变成单词向量。列是语料库中所有唯一的词。行是文档。单元格值是以下各项之一：单词是否出现在文档中，出现的次数，出现的相对频率或TFIDF分数。然后，您可以将这些列与其他非单词列一起使用。

现在您的列数可能多于行数，这意味着基于矩阵的算法将具有奇异之处，在这种情况下，您需要诸如SVM或Naive Bayes之类的东西。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。