我已经在Microsoft Azure上以标准配置(位置=美国东部,头节点= D12 v2(x2),工作节点= D4 v2(x4))部署了HDInsight 3.5 Spark(2.0)群集。当集群运行时,我连接到Jupyter笔记本,并尝试导入自己创建的模块。
import own_module
不幸的是,这无法正常工作,因此我尝试1)在Jupyter Notebook主目录中上传own_module.py,以及2)通过ssh连接将own_module.py添加到/ home / sshuser。之后,我将/ home / sshuser添加到sys.path和PYTHONPATH中:
sys.path.append('/home/sshuser')
os.environ['PYTHONPATH'] = os.environ['PYTHONPATH'] + ':/home/sshuser'
此操作也不起作用。错误仍然显示:
No module named own_module
Traceback (most recent call last):
ImportError: No module named own_module
有人可以告诉我如何导入自己的模块吗?最好将它们放入Azure blob存储中,然后再将它们转移到HDInsight群集中。
您可以使用spark上下文的addPyFile方法。首先将文件放入Azure blob存储,然后复制公共http / https地址并将此URLaddPyFile
用作函数。该模块将在驱动程序和所有执行程序上均可使用。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句