PySpark打印到控制台

罗曼

像这样在dataproc服务器上运行PySpark作业时

gcloud --project <project_name> dataproc jobs submit pyspark --cluster <cluster_name> <python_script>

我的打印报表没有显示在我的终端上。

在云上运行作业时,有什么方法可以将数据输出到PySpark的终端上?

编辑:我想从转换中打印/记录信息。例如:

def print_funct(l):
    print(l)
    return l

rddData.map(lambda l: print_funct(l)).collect()

应该在RDD中打印每一行数据rddData

进行一些挖掘后,我找到了用于记录日志的答案,但是,对其进行测试后,向我提供了该问题的结果,其答案表明,在转换过程中无法进行记录

帕特里克·克莱

转换内部的打印或日志记录将最终显示在Spark执行程序日志中,可通过YARN ResourceManager Web UI通过应用程序的AppMaster或HistoryServer进行访问

您也可以在输出旁边(例如,在dict或tuple中)收集要打印的信息。您也可以将其存放在累加器中,然后从驱动程序中进行打印。

如果您要进行很多打印语句调试,则可能会发现SSH更快地进入主节点并使用pyspark REPL或IPython来测试代码会更快。这也将允许您使用--master本地标志,这将使您的打印语句出现在stdout中。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

PySpark打印到控制台

来自分类Dev

如何从XSJS打印到控制台

来自分类Dev

Clion无法打印到控制台

来自分类Dev

打印到课堂之外的控制台

来自分类Dev

Kotlin Android打印到控制台

来自分类Dev

打印到控制台Cloudfront Domain

来自分类Dev

使用&,但仍打印到控制台

来自分类Dev

Clion无法打印到控制台

来自分类Dev

Hamcrest - 打印到控制台

来自分类Dev

PowerShell 不打印到控制台

来自分类Dev

JavaDStream将Lambda中的RDD打印到控制台

来自分类Dev

Swift无法使用Terminator参数打印到控制台

来自分类Dev

无法在robocode中打印到控制台

来自分类Dev

在Haml中将变量打印到控制台以调试Rspec

来自分类Dev

从应用程序扩展打印到控制台

来自分类Dev

在Codeception中将调试输出打印到控制台

来自分类Dev

如何将unicode符号打印到控制台

来自分类Dev

将通用数组打印到控制台

来自分类Dev

在Java中将套接字消息打印到控制台

来自分类Dev

将对象列表打印到控制台

来自分类Dev

将元素的内容打印到控制台

来自分类Dev

在jupyter中使用R实时打印到控制台

来自分类Dev

Intellij远程tomcat打印到控制台

来自分类Dev

使用knitr时如何打印到控制台?

来自分类Dev

尝试将SerialPort输入打印到控制台

来自分类Dev

PL / SQL无法打印到控制台(在SQLDeveloper中)

来自分类Dev

在等待python输入时打印到控制台

来自分类Dev

XmlWriter打印到控制台时输出意外的编码

来自分类Dev

停止Tensorflow从打印到控制台