我一直在尝试使用用户数据构建预测模型。模型的输入是文档的元数据(发布日期,标题等),文档标签是用户的偏好(喜欢/不喜欢)。我想问一些我希望能得到答案的问题:
是否有可能输入ML算法,例如逻辑回归在数字和单词以及如何做到这一点上是混合的,例如:
输入= [18,23,1,0,'cryptography'],标签= ['Like']
我们还可以使用向量(代表单词,使用tfidf等)作为输入特征(例如50维向量)吗?
感谢您的时间。
您需要对较大的类进行欠采样(采取较小的随机样本以匹配较小的类的大小),对较小的类进行过度采样(引导样本),或者使用支持不平衡数据的算法-为此,您可以需要阅读文档。
您需要将您的单词变成单词向量。列是语料库中所有唯一的词。行是文档。单元格值是以下各项之一:单词是否出现在文档中,出现的次数,出现的相对频率或TFIDF分数。然后,您可以将这些列与其他非单词列一起使用。
现在您的列数可能多于行数,这意味着基于矩阵的算法将具有奇异之处,在这种情况下,您需要诸如SVM或Naive Bayes之类的东西。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句