无法在Cloudera Quickstart VM 5.3.0中使用Cloudera Manager添加新服务

Julien Navarre 发表于 Dev

朱利安·纳瓦拉（Julien Navarre）

我正在使用Cloudera Quickstart VM 5.3.0（在Windows 7上的Virtual Box 4.3中运行），并且想学习Spark（在YARN上）。

我启动了Cloudera Manager。在边栏中，我可以看到所有服务，其中有Spark，但处于独立模式。所以我点击“添加新服务”，选择“火花”。然后，我必须为此服务选择一组依赖项，我别无选择，必须选择HDFS / YARN / zookeeper。下一步，我必须选择一个历史服务器和一个网关，我以本地模式运行VM，因此只能选择localhost。

我单击“继续”，发生此错误（+ 69条痕迹）：

发生服务器错误。将以下信息发送到Cloudera。

路径：http：// localhost：7180 / cmf / clusters / 1 / add-service / reviewConfig

版本：Cloudera Express 5.3.0（＃155由詹金斯在20141216-1458上构建git：e9aae1d1d1ce2982d812b22bd1c29ff7af355226）

org.springframework.web.bind.MissingServletRequestParameterException：org.springframework.web.servlet.mvc.annotation.AnnotationMethodHandlerAdapter $ ServletHandlerMethodInvoker的AnnotationMethodHandlerAdapter.java行738中不存在必需的长参数'serviceId'

我不知道是否需要互联网连接，但我想我无法使用VM连接到互联网。（编辑：即使连接了互联网，我也会遇到同样的错误）

我不知道如何添加此服务，无论有没有网关，我都尝试过，但有很多网络选项，但从未成功。我检查了已知问题；没有...

有人知道我该如何解决该错误或如何解决？谢谢你的帮助。

迈尔斯·贝克（Myles Baker）

朱利安

在回答您的问题之前，我想对Hadoop 5的Cloudera Distribution（CDH5）中的Spark进行一些一般性说明：

Spark以三种不同的格式运行：（1）本地，（2）Spark自己的独立管理器，以及（3）其他集群资源管理器，例如Hadoop YARN，Apache Mesos和Amazon EC2。
Spark开箱即用，适用于（1）和（2）的CHD 5。您可以使用命令或在Python中启动Scala中的本地交互式Spark会话，而无需传递任何参数。我发现交互式Scala和Python解释器有助于学习使用弹性分布式数据集（RDD）进行编程。spark-shellpyspark

我能够在CDH 5.3.x发行版上重新创建您的错误。我并不是想对您发现的错误表示赞赏，但我已发布到Cloudera开发人员社区以获取反馈。

为了在QuickStart伪分布式环境中使用Spark，请使用以下命令查看所有Spark守护进程是否正在运行（您可以在Cloudera Manager（CM）UI中执行此操作）：

[cloudera@quickstart simplesparkapp]$ sudo service --status-all | grep -i spark
Spark history-server is not running                        [FAILED]
Spark master is not running                                [FAILED]
Spark worker is not running                                [FAILED]

我已经手动停止了所有独立的Spark服务，因此我们可以尝试在Yarn中提交Spark作业。

为了在快速启动集群的Yarn容器内运行Spark，我们必须执行以下操作：

将设置为HADOOP_CONF_DIR包含yarn-site.xml配置文件的目录的根目录。这通常/etc/hadoop/conf在CHD5中。您可以使用命令设置此变量export HADOOP_CONF_DIR="/etc/hadoop/conf"。
使用提交作业，spark-submit并指定您正在使用Hadoop YARN。

spark-submit --class CLASS_PATH --master yarn JAR_DIR ARGS
在Hue中检查作业状态，并与Spark History服务器进行比较。色相应将作业显示在通用的Yarn容器中，并且“火花历史记录”不应具有已提交作业的记录。