将 Spark 输出合并到单个文件中

雷扎·卡拉米

我想知道在使用 Spark 时是否有办法将最终结果合并到一个文件中?这是我的代码:

conf = SparkConf().setAppName("logs").setMaster("local[*]")
sc = SparkContext(conf = conf)

logs_1 = sc.textFile('logs/logs_1.tsv')
logs_2 = sc.textFile('logs/logs_2.tsv')

url_1 = logs_1.map(lambda line: line.split("\t")[2])
url_2 = logs_2.map(lambda line: line.split("\t")[2])

all_urls = uls_1.intersection(urls_2)
all_urls = all_urls.filter(lambda url: url != "localhost") 

all_urls.collect()

all_urls.saveAsTextFile('logs.csv')

collect() 方法似乎不起作用(或者我误解了它的目的)。本质上,我需要将“saveAsTextFile”输出到单个文件,而不是包含零件的文件夹。

合欢

请在下面找到一些建议:

  • collect()saveAsTextFile()是意味着他们将在驱动程序节点上收集结果的操作。因此,同时调用它们是多余的。

  • 在您的情况下,您只需要存储数据而saveAsTextFile()无需调用collect().

  • collect() 返回一组项目(在您的情况下,您没有使用返回的变量)

  • 正如 Glennie 和 Akash 建议的那样,只使用coalesce(1)强制单个分区。coalesce(1)不会导致改组,因此效率更高。

  • 在给定的代码中,您使用的是 Spark 的 RDD API,我建议改用数据帧/数据集。

有关 RDD 和数据帧的更多详细信息,请参阅下一个链接:

Spark中DataFrame、Dataset、RDD的区别

https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

将Spark的输出合并到一个文件中

来自分类Dev

将react build输出合并到单个js文件中

来自分类Dev

Visual Studio 2015 CTP 6-将Typescript输出合并到单个.js文件中

来自分类Dev

将pdf注释合并到单个文件中

来自分类Dev

将x11grab与v4l2合并到单个输出文件中

来自分类Dev

将spark dStream与变量合并到saveToCassandra()

来自分类Dev

Hadoop-使用Java将reducer输出合并到单个文件

来自分类Dev

使用RxJs forkJoin将多个api调用合并到单个输出数组中

来自分类Dev

将三行的输出合并到sql中的单个值

来自分类Dev

将许多Excel文件中的数据合并到单个Excel文件中

来自分类Dev

uglify将多个js文件合并到单个js文件中

来自分类Dev

将多个.csv文件的内容合并到单个.csv文件中

来自分类Dev

将多个.csv文件的内容合并到单个.csv文件中

来自分类Dev

EMR spark step 并将输出合并到一个文件中

来自分类Dev

如何使用批处理将.txt中列出的.sql文件合并到单个.sql脚本中?

来自分类Dev

将多个html模板合并到单个index.html文件中

来自分类Dev

使用spark将数据按排序顺序合并到csv文件

来自分类Dev

将CSV文件合并到单个data.fram

来自分类Dev

python将多个json请求合并到单个文件并保存

来自分类Dev

如何将文件名从find输出合并到字符串中

来自分类Dev

当字典具有不同的键时,将Python字典合并到Spark数据框中

来自分类常见问题

将API结果合并到Powershell中的单个对象中

来自分类Dev

将API结果合并到Powershell中的单个对象中

来自分类Dev

如何将Spark Scala映射字段合并到BQ?

来自分类Dev

将按查询分组的计数合并到单个表中

来自分类Dev

将多个行值合并到单个列中

来自分类Dev

如何将timeDate列表合并到单个timeDate中?

来自分类Dev

jq-仅将第二个JSON文件中的单个密钥合并到主JSON文件中

来自分类Dev

如何将多个Excel文件中的数据合并到单个Excel文件或Access数据库中?

Related 相关文章

  1. 1

    将Spark的输出合并到一个文件中

  2. 2

    将react build输出合并到单个js文件中

  3. 3

    Visual Studio 2015 CTP 6-将Typescript输出合并到单个.js文件中

  4. 4

    将pdf注释合并到单个文件中

  5. 5

    将x11grab与v4l2合并到单个输出文件中

  6. 6

    将spark dStream与变量合并到saveToCassandra()

  7. 7

    Hadoop-使用Java将reducer输出合并到单个文件

  8. 8

    使用RxJs forkJoin将多个api调用合并到单个输出数组中

  9. 9

    将三行的输出合并到sql中的单个值

  10. 10

    将许多Excel文件中的数据合并到单个Excel文件中

  11. 11

    uglify将多个js文件合并到单个js文件中

  12. 12

    将多个.csv文件的内容合并到单个.csv文件中

  13. 13

    将多个.csv文件的内容合并到单个.csv文件中

  14. 14

    EMR spark step 并将输出合并到一个文件中

  15. 15

    如何使用批处理将.txt中列出的.sql文件合并到单个.sql脚本中?

  16. 16

    将多个html模板合并到单个index.html文件中

  17. 17

    使用spark将数据按排序顺序合并到csv文件

  18. 18

    将CSV文件合并到单个data.fram

  19. 19

    python将多个json请求合并到单个文件并保存

  20. 20

    如何将文件名从find输出合并到字符串中

  21. 21

    当字典具有不同的键时,将Python字典合并到Spark数据框中

  22. 22

    将API结果合并到Powershell中的单个对象中

  23. 23

    将API结果合并到Powershell中的单个对象中

  24. 24

    如何将Spark Scala映射字段合并到BQ?

  25. 25

    将按查询分组的计数合并到单个表中

  26. 26

    将多个行值合并到单个列中

  27. 27

    如何将timeDate列表合并到单个timeDate中?

  28. 28

    jq-仅将第二个JSON文件中的单个密钥合并到主JSON文件中

  29. 29

    如何将多个Excel文件中的数据合并到单个Excel文件或Access数据库中?

热门标签

归档