我是来自 Apache Zeppelin 0.7.1 的 pyspark 新用户,可以访问我的 Spark 集群。我配置了2台机器:
情况:
如果我使用 Master (Machine-1) 的 pyspark 控制台,集群工作正常。
当我使用 Spark 的 Local[*] 配置时,
Zeppelin一切正常。
按照这个zeppelin 文档,我将 spark://Machine-1:7077 放在spark 解释器配置的主属性中。然后,一些代码在我的 Zeppelin Notebook 的单元格中运行正常:
%spark
sc.version
sc.getConf.get("spark.home")
System.getenv().get("PYTHONPATH")
System.getenv().get("SPARK_HOME")
但其他 RDD 转换(例如)永远不会结束:
%pyspark
input_file = "/tmp/kddcup.data_10_percent.gz"
raw_rdd = sc.textFile(input_file)
怎么了?一些忠告?先谢谢你。
最终我意识到:
谢谢你,格雷格,你的兴趣。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句