我有一个项目要求。我正在使用python脚本分析数据。最初,我使用txt文件作为该python脚本的输入。但是随着数据的增长,我必须将存储平台切换到Hadoop HDFS。如何将HDFS数据作为输入提供给python脚本?有什么办法吗?提前致谢。
Hadoop流API:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc
您需要了解的所有信息都在这里:http : //www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句