我是这个概念的新手,并且仍在学习中。我在AWS S3中总共有10 TB json文件,在AWS EC2中有4个实例(m3.xlarge)(1个主服务器,3个工作器)。我目前在Apache Zeppelin上将python与spark一起使用。
我正在使用以下命令读取文件;
hcData=sqlContext.read.option("inferSchema","true").json(path)
在Zeppelin解释器设置中:
master = yarn-client
spark.driver.memory = 10g
spark.executor.memory = 10g
spark.cores.max = 4
大约需要1分钟才能读取1GB。为了更有效地读取大数据,我可以做些什么?
谢谢你。
对于性能问题,最好是知道性能瓶颈在哪里。或者尝试查看性能问题可能出在哪里。
由于1分钟读取1GB的速度非常慢。我会尝试以下步骤。
inferSchema
parquet
比其他json
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句