我搜索并阅读了一些有关CBOW的文章。但是这些文章之间似乎有所不同。
我认为:
你能帮我回答吗?
在实际的实现中(您可以查看其源代码),将上下文词向量集平均在一起,然后作为“输入”馈入神经网络。
然后,对输入的任何向后传播的调整也将应用于对该平均值有贡献的所有向量。
(例如,在word2vec.c
与Google的原始word2vec论文一起发布的原始文档中,您可以看到对向量的neu1
计数cw
,然后通过除以上下文窗口计数求平均值,位于:
https://github.com/tmikolov/word2vec/blob/master/word2vec.c#L444-L448)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句