将句子嵌入分布式Spark系统中的最有效方法是什么?

胡安·曼努埃尔·古铁雷斯

我有一个带有单词嵌入的文件(将单词嵌入定义为单词的向量表示形式),格式如下:

a | [0.23, 0.04, ..., -0.22]
aaron | [0.21, 0.08, ..., -0.41]
... | ...
zebra | [0.97, 0.01, ..., -0.34]

该文件约为2.5 GB。我也有很多想转换为向量的句子,例如:

Yes sir, today is a great day.
Would you want to buy that blue shirt?
...
Is there anything else I can help you with?

我的句子嵌入策略目前很简单:

For each sentence:
  For each word:
    Obtain the vector representation of the word using the word embedding file.
  End
  Calculate the average of the word vectors of the sentence.
End

我发现由于要嵌入大量的句子,因此可以使用Spark来完成此任务;将单词嵌入作为文件存储在HDFS中,并使用Spark SQL从Hive表中查询句子,但是由于每个节点可能都需要访问整个单词嵌入文件,这意味着在每个节点中收集整个单词嵌入RDD节点之间的通信非常昂贵。

任何人都对如何有效解决此问题有任何想法?如果问题尚不清楚,或者您认为我对Spark的工作方式有误解,也请告诉我。我仍在学习,非常感谢您的帮助!

提前致谢。

丁磊

首先,对于您而言,您word是一成不变的,并且担心网络效率。我认为您可以word设置广播参数,因此word将其存储在本地的每个节点中,而您只传输了word一次(总共N次,N是执行者的数量)。然后,如果您要同时嵌入word和句子,这意味着必须进行网络传输,则最好在最终聚合之前进行本地归约。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

将温度值集合存储到MYSQL的最有效方法是什么?

来自分类Dev

对于稀疏的科学矩阵,将行设置为零的最有效方法是什么?

来自分类Dev

列出目录的最有效方法是什么?

来自分类Dev

读取大文件的最有效方法是什么?

来自分类Dev

最有效的句子拆分方法

来自分类Dev

过滤单个资源最有效的方法是什么?

来自分类Dev

使Spark在专有分布式DB上工作的最佳方法是什么?(RDD或FileInputFormat)

来自分类Dev

将pdf转换为流的最有效方法是什么

来自分类Dev

遍历图片像素的最有效方法是什么

来自分类Dev

分布式系统中的CRDT是什么?

来自分类Dev

将std :: vector <std :: tuple <>>转换为Torch :: Tensor的最有效方法是什么?

来自分类Dev

分布式系统中的大使概念是什么?

来自分类Dev

使wifi工作最有效的方法是什么?

来自分类Dev

获取数字总和的最有效方法是什么?

来自分类Dev

在Haxe中循环最有效的方法是什么?

来自分类Dev

在javascript中获取数字的最低有效位的最有效方法是什么?

来自分类Dev

使wifi工作最有效的方法是什么?

来自分类Dev

Emacs:删除报价最有效的方法是什么?

来自分类Dev

生成正态分布的随机值时,定义范围的最有效方法是什么?

来自分类Dev

筛选搜索的最有效方法是什么?

来自分类Dev

在响应式设计网站中拥有不同大小的背景图像的最有效方法是什么?

来自分类Dev

检测nmap扫描的最有效方法是什么?

来自分类Dev

绘制网格最有效的方法是什么?

来自分类Dev

分布式系统中的大使概念是什么?

来自分类Dev

Spark在PairRDD中获取唯一对的最有效方法是什么?

来自分类Dev

处理 eventListener 的最有效方法是什么?

来自分类Dev

将最高有效设置位以下的所有位归零的最有效方法是什么?

来自分类Dev

将数据存储到 Firebase 中的多个引用的最有效方法是什么?

来自分类Dev

Python:打印列表的最有效方法是什么?

Related 相关文章

  1. 1

    将温度值集合存储到MYSQL的最有效方法是什么?

  2. 2

    对于稀疏的科学矩阵,将行设置为零的最有效方法是什么?

  3. 3

    列出目录的最有效方法是什么?

  4. 4

    读取大文件的最有效方法是什么?

  5. 5

    最有效的句子拆分方法

  6. 6

    过滤单个资源最有效的方法是什么?

  7. 7

    使Spark在专有分布式DB上工作的最佳方法是什么?(RDD或FileInputFormat)

  8. 8

    将pdf转换为流的最有效方法是什么

  9. 9

    遍历图片像素的最有效方法是什么

  10. 10

    分布式系统中的CRDT是什么?

  11. 11

    将std :: vector <std :: tuple <>>转换为Torch :: Tensor的最有效方法是什么?

  12. 12

    分布式系统中的大使概念是什么?

  13. 13

    使wifi工作最有效的方法是什么?

  14. 14

    获取数字总和的最有效方法是什么?

  15. 15

    在Haxe中循环最有效的方法是什么?

  16. 16

    在javascript中获取数字的最低有效位的最有效方法是什么?

  17. 17

    使wifi工作最有效的方法是什么?

  18. 18

    Emacs:删除报价最有效的方法是什么?

  19. 19

    生成正态分布的随机值时,定义范围的最有效方法是什么?

  20. 20

    筛选搜索的最有效方法是什么?

  21. 21

    在响应式设计网站中拥有不同大小的背景图像的最有效方法是什么?

  22. 22

    检测nmap扫描的最有效方法是什么?

  23. 23

    绘制网格最有效的方法是什么?

  24. 24

    分布式系统中的大使概念是什么?

  25. 25

    Spark在PairRDD中获取唯一对的最有效方法是什么?

  26. 26

    处理 eventListener 的最有效方法是什么?

  27. 27

    将最高有效设置位以下的所有位归零的最有效方法是什么?

  28. 28

    将数据存储到 Firebase 中的多个引用的最有效方法是什么?

  29. 29

    Python:打印列表的最有效方法是什么?

热门标签

归档