如何提高大数据性能？

debugcn 发表于 Dev

贝里尔·艾德迈（Beril Aydemir）

我是这个概念的新手，并且仍在学习中。我在AWS S3中总共有10 TB json文件，在AWS EC2中有4个实例（m3.xlarge）（1个主服务器，3个工作器）。我目前在Apache Zeppelin上将python与spark一起使用。

我正在使用以下命令读取文件；

hcData=sqlContext.read.option("inferSchema","true").json(path)

在Zeppelin解释器设置中：

master = yarn-client
spark.driver.memory = 10g
spark.executor.memory = 10g
spark.cores.max = 4

大约需要1分钟才能读取1GB。为了更有效地读取大数据，我可以做些什么？

我应该在编码方面做更多工作吗？
我应该增加实例数吗？
我应该使用其他笔记本平台吗？

谢谢你。

杨洛基

对于性能问题，最好是知道性能瓶颈在哪里。或者尝试查看性能问题可能出在哪里。

由于1分钟读取1GB的速度非常慢。我会尝试以下步骤。

尝试显式指定架构，而不是 inferSchema
尝试使用Spark 2.0而不是1.6
检查S3和EC2之间的连接，以防配置错误
使用不同的文件格式一样parquet比其他json
增加执行程序的内存并减少驱动程序的内存
使用Scala而不是Python，尽管在这种情况下最不可能出现此问题。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-3

我来说两句

0条评论

登录后参与评论

来自分类常见问题

如何提高Spark性能？

来自分类Dev

如何提高randomForest的性能？

来自分类Dev

如何提高SVM的性能？

来自分类Dev

如何提高ASP.NET中静态数据缓存的性能？

来自分类Dev

如何提高大型数据集中Python计算的速度？

来自分类Dev

如何提高ClojureScript性能

来自分类Dev

提高大表有序顶部查询的性能

来自分类Dev

如何提高FlowDocumentScrollViewer的性能？

来自分类Dev

如何提高paramiko的性能

来自分类Dev

如何提高Dart与二进制数据转换的性能？

来自分类Dev

如何通过替换“ for-loop”和“ if-else”子句来提高大型数据集的性能

来自分类Dev

如何在Python中提高大数模乘法的效率

来自分类Dev

如何提高大数双精度型的精度？

来自分类Dev

如何提高大文件的Python迭代性能

来自分类Dev

如何提高将数据插入数据库的性能？

来自分类Dev

如何提高ILIKE的性能？

来自分类Dev

如何提高大n的Fibonacci实现的精度？

来自分类Dev

提高SQL Server插入大数据的性能

来自分类Dev

如何提高Unity性能？

来自分类Dev

提高大字符串上的正则表达式的性能

来自分类Dev

如何提高Notes数据库的性能？

来自分类Dev

如何提高JAXB性能？

来自分类Dev

提高大型数据集上谓词的性能

来自分类Dev

创建辅助表以提高大型MySQL表的性能？

来自分类Dev

如何提高paramiko的性能

来自分类Dev

在Django中提高对许多巨大数据记录的INSERT性能

来自分类Dev

如何提高Groovy的性能？

来自分类Dev

提高数据比较性能

来自分类Dev

使用大数据表提高查找性能

Related 相关文章

文章