将句子嵌入分布式Spark系统中的最有效方法是什么?

胡安·曼努埃尔·古铁雷斯

我有一个带有单词嵌入的文件(将单词嵌入定义为单词的向量表示形式),格式如下:

a | [0.23, 0.04, ..., -0.22]
aaron | [0.21, 0.08, ..., -0.41]
... | ...
zebra | [0.97, 0.01, ..., -0.34]

该文件约为2.5 GB。我也有很多想转换为向量的句子,例如:

Yes sir, today is a great day.
Would you want to buy that blue shirt?
...
Is there anything else I can help you with?

我的句子嵌入策略目前很简单:

For each sentence:
  For each word:
    Obtain the vector representation of the word using the word embedding file.
  End
  Calculate the average of the word vectors of the sentence.
End

我发现由于要嵌入大量的句子,因此可以使用Spark来完成此任务;将单词嵌入作为文件存储在HDFS中,并使用Spark SQL从Hive表中查询句子,但是由于每个节点可能都需要访问整个单词嵌入文件,这意味着在每个节点中收集整个单词嵌入RDD节点之间的通信非常昂贵。

任何人都对如何有效解决此问题有任何想法?如果问题尚不清楚,或者您认为我对Spark的工作方式有误解,也请告诉我。我仍在学习,非常感谢您的帮助!

提前致谢。

丁磊

首先,对于您而言,您word是一成不变的,并且担心网络效率。我认为您可以word设置广播参数,因此word将其存储在本地的每个节点中,而您只传输了word一次(总共N次,N是执行者的数量)。然后,如果您要同时嵌入word和句子,这意味着必须进行网络传输,则最好在最终聚合之前进行本地归约。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Spark在PairRDD中获取唯一对的最有效方法是什么?

来自分类Dev

在Haxe中循环最有效的方法是什么?

来自分类Dev

将数据存储到 Firebase 中的多个引用的最有效方法是什么?

来自分类Dev

分布式系统中的CRDT是什么?

来自分类Dev

分布式系统中的大使概念是什么?

来自分类Dev

分布式系统中的大使概念是什么?

来自分类Dev

生成正态分布的随机值时,定义范围的最有效方法是什么?

来自分类Dev

在javascript中获取数字的最低有效位的最有效方法是什么?

来自分类Dev

在响应式设计网站中拥有不同大小的背景图像的最有效方法是什么?

来自分类Dev

使Spark在专有分布式DB上工作的最佳方法是什么?(RDD或FileInputFormat)

来自分类Dev

最有效的句子拆分方法

来自分类Dev

将最高有效设置位以下的所有位归零的最有效方法是什么?

来自分类Dev

过滤单个资源最有效的方法是什么?

来自分类Dev

使wifi工作最有效的方法是什么?

来自分类Dev

读取大文件的最有效方法是什么?

来自分类Dev

列出目录的最有效方法是什么?

来自分类Dev

遍历图片像素的最有效方法是什么

来自分类Dev

获取数字总和的最有效方法是什么?

来自分类Dev

使wifi工作最有效的方法是什么?

来自分类Dev

Emacs:删除报价最有效的方法是什么?

来自分类Dev

筛选搜索的最有效方法是什么?

来自分类Dev

检测nmap扫描的最有效方法是什么?

来自分类Dev

绘制网格最有效的方法是什么?

来自分类Dev

处理 eventListener 的最有效方法是什么?

来自分类Dev

Python:打印列表的最有效方法是什么?

来自分类Dev

对于稀疏的科学矩阵,将行设置为零的最有效方法是什么?

来自分类Dev

将温度值集合存储到MYSQL的最有效方法是什么?

来自分类Dev

将std :: vector <std :: tuple <>>转换为Torch :: Tensor的最有效方法是什么?

来自分类Dev

将pdf转换为流的最有效方法是什么

Related 相关文章

  1. 1

    Spark在PairRDD中获取唯一对的最有效方法是什么?

  2. 2

    在Haxe中循环最有效的方法是什么?

  3. 3

    将数据存储到 Firebase 中的多个引用的最有效方法是什么?

  4. 4

    分布式系统中的CRDT是什么?

  5. 5

    分布式系统中的大使概念是什么?

  6. 6

    分布式系统中的大使概念是什么?

  7. 7

    生成正态分布的随机值时,定义范围的最有效方法是什么?

  8. 8

    在javascript中获取数字的最低有效位的最有效方法是什么?

  9. 9

    在响应式设计网站中拥有不同大小的背景图像的最有效方法是什么?

  10. 10

    使Spark在专有分布式DB上工作的最佳方法是什么?(RDD或FileInputFormat)

  11. 11

    最有效的句子拆分方法

  12. 12

    将最高有效设置位以下的所有位归零的最有效方法是什么?

  13. 13

    过滤单个资源最有效的方法是什么?

  14. 14

    使wifi工作最有效的方法是什么?

  15. 15

    读取大文件的最有效方法是什么?

  16. 16

    列出目录的最有效方法是什么?

  17. 17

    遍历图片像素的最有效方法是什么

  18. 18

    获取数字总和的最有效方法是什么?

  19. 19

    使wifi工作最有效的方法是什么?

  20. 20

    Emacs:删除报价最有效的方法是什么?

  21. 21

    筛选搜索的最有效方法是什么?

  22. 22

    检测nmap扫描的最有效方法是什么?

  23. 23

    绘制网格最有效的方法是什么?

  24. 24

    处理 eventListener 的最有效方法是什么?

  25. 25

    Python:打印列表的最有效方法是什么?

  26. 26

    对于稀疏的科学矩阵,将行设置为零的最有效方法是什么?

  27. 27

    将温度值集合存储到MYSQL的最有效方法是什么?

  28. 28

    将std :: vector <std :: tuple <>>转换为Torch :: Tensor的最有效方法是什么?

  29. 29

    将pdf转换为流的最有效方法是什么

热门标签

归档