将句子嵌入分布式Spark系统中的最有效方法是什么？

debugcn 发表于 Dev

胡安·曼努埃尔·古铁雷斯

我有一个带有单词嵌入的文件（将单词嵌入定义为单词的向量表示形式），格式如下：

a | [0.23, 0.04, ..., -0.22]
aaron | [0.21, 0.08, ..., -0.41]
... | ...
zebra | [0.97, 0.01, ..., -0.34]

该文件约为2.5 GB。我也有很多想转换为向量的句子，例如：

Yes sir, today is a great day.
Would you want to buy that blue shirt?
...
Is there anything else I can help you with?

我的句子嵌入策略目前很简单：

For each sentence:
  For each word:
    Obtain the vector representation of the word using the word embedding file.
  End
  Calculate the average of the word vectors of the sentence.
End

我发现由于要嵌入大量的句子，因此可以使用Spark来完成此任务；将单词嵌入作为文件存储在HDFS中，并使用Spark SQL从Hive表中查询句子，但是由于每个节点可能都需要访问整个单词嵌入文件，这意味着在每个节点中收集整个单词嵌入RDD节点之间的通信非常昂贵。

任何人都对如何有效解决此问题有任何想法？如果问题尚不清楚，或者您认为我对Spark的工作方式有误解，也请告诉我。我仍在学习，非常感谢您的帮助！

提前致谢。

丁磊

首先，对于您而言，您word是一成不变的，并且担心网络效率。我认为您可以word设置广播参数，因此word将其存储在本地的每个节点中，而您只传输了word一次（总共N次，N是执行者的数量）。然后，如果您要同时嵌入word和句子，这意味着必须进行网络传输，则最好在最终聚合之前进行本地归约。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-5

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

将句子嵌入分布式Spark系统中的最有效方法是什么？

将句子嵌入分布式Spark系统中的最有效方法是什么？

将温度值集合存储到MYSQL的最有效方法是什么？

对于稀疏的科学矩阵，将行设置为零的最有效方法是什么？

列出目录的最有效方法是什么？

读取大文件的最有效方法是什么？

最有效的句子拆分方法

过滤单个资源最有效的方法是什么？

使Spark在专有分布式DB上工作的最佳方法是什么？（RDD或FileInputFormat）

将pdf转换为流的最有效方法是什么

遍历图片像素的最有效方法是什么

分布式系统中的CRDT是什么？

将std :: vector <std :: tuple <>>转换为Torch :: Tensor的最有效方法是什么？

分布式系统中的大使概念是什么？

使wifi工作最有效的方法是什么？

获取数字总和的最有效方法是什么？

在Haxe中循环最有效的方法是什么？

在javascript中获取数字的最低有效位的最有效方法是什么？

使wifi工作最有效的方法是什么？

Emacs：删除报价最有效的方法是什么？

生成正态分布的随机值时，定义范围的最有效方法是什么？

筛选搜索的最有效方法是什么？

在响应式设计网站中拥有不同大小的背景图像的最有效方法是什么？

检测nmap扫描的最有效方法是什么？

绘制网格最有效的方法是什么？

分布式系统中的大使概念是什么？

Spark在PairRDD中获取唯一对的最有效方法是什么？

处理 eventListener 的最有效方法是什么？

将最高有效设置位以下的所有位归零的最有效方法是什么？

将数据存储到 Firebase 中的多个引用的最有效方法是什么？

Python：打印列表的最有效方法是什么？