我们有一组带有出租车位置的序列。我们希望通过考虑数据线中的顺序模式来对数据进行聚类。例如:T1,T2,T3,T4是行程,而a,b,c,d,e是地点集。我们拥有的数据就像
但是问题是数据的长度是不可变的。我们如何使用EM对这些类型的数据进行聚类。由于它不接受可变长度的数据,因此我们可以对其进行自定义。谢谢
EM是一般原则。您可以在非常不同的模型中使用它。
EM最受欢迎的模型可能是高斯混合模型(GMM)。
自然,如果使用协方差,则GMM需要固定的维数。
但是,如果您使用其他模型,则没有理由不能将其与可变长度向量一起使用。例如,有些EM变体可以处理文本数据,并且文本的确通常具有不同的长度。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句