PySpark错误:“输入路径不存在”

亚历克西斯·埃格蒙特

我是Spark的新手,我用Python编写代码。

严格按照我的“ Learning Spark”指南,我看到“您不需要安装Hadoop即可运行Spark”

但是,当我仅尝试使用Pyspark对一个文件中的行进行计数时,会出现以下错误。我想念什么?

>>> lines = sc.textFile("README.md")
15/02/01 13:27:12 INFO MemoryStore: ensureFreeSpace(32728) called with curMem=0,
 maxMem=278019440
15/02/01 13:27:12 INFO MemoryStore: Block broadcast_0 stored as values in memory
 (estimated size 32.0 KB, free 265.1 MB)
>>> lines.count()
15/02/01 13:27:18 WARN NativeCodeLoader: Unable to load native-hadoop library fo
r your platform... using builtin-java classes where applicable
15/02/01 13:27:18 WARN LoadSnappy: Snappy native library not loaded
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Spark\spark-1.1.0-bin-hadoop1\python\pyspark\rdd.py", line 847, in co
unt
    return self.mapPartitions(lambda i: [sum(1 for _ in i)]).sum()
  File "C:\Spark\spark-1.1.0-bin-hadoop1\python\pyspark\rdd.py", line 838, in su
m
    return self.mapPartitions(lambda x: [sum(x)]).reduce(operator.add)
  File "C:\Spark\spark-1.1.0-bin-hadoop1\python\pyspark\rdd.py", line 759, in re
duce
    vals = self.mapPartitions(func).collect()
  File "C:\Spark\spark-1.1.0-bin-hadoop1\python\pyspark\rdd.py", line 723, in co
llect
    bytesInJava = self._jrdd.collect().iterator()
  File "C:\Spark\spark-1.1.0-bin-hadoop1\python\lib\py4j-0.8.2.1-src.zip\py4j\ja
va_gateway.py", line 538, in __call__
  File "C:\Spark\spark-1.1.0-bin-hadoop1\python\lib\py4j-0.8.2.1-src.zip\py4j\pr
otocol.py", line 300, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling o26.collect.
: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: fil
e:/C:/Spark/spark-1.1.0-bin-hadoop1/bin/README.md
        at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.j
ava:197)
        at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.ja
va:208)
        at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:179)
        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:204)
        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:202)
        at scala.Option.getOrElse(Option.scala:120)
        at org.apache.spark.rdd.RDD.partitions(RDD.scala:202)
        at org.apache.spark.rdd.MappedRDD.getPartitions(MappedRDD.scala:28)
        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:204)
        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:202)
        at scala.Option.getOrElse(Option.scala:120)
        at org.apache.spark.rdd.RDD.partitions(RDD.scala:202)
        at org.apache.spark.api.python.PythonRDD.getPartitions(PythonRDD.scala:5
6)
        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:204)
        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:202)
        at scala.Option.getOrElse(Option.scala:120)
        at org.apache.spark.rdd.RDD.partitions(RDD.scala:202)
        at org.apache.spark.SparkContext.runJob(SparkContext.scala:1135)
        at org.apache.spark.rdd.RDD.collect(RDD.scala:774)
        at org.apache.spark.api.java.JavaRDDLike$class.collect(JavaRDDLike.scala
:305)
        at org.apache.spark.api.java.JavaRDD.collect(JavaRDD.scala:32)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
        at java.lang.reflect.Method.invoke(Unknown Source)
        at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231)
        at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:379)
        at py4j.Gateway.invoke(Gateway.java:259)
        at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
        at py4j.commands.CallCommand.execute(CallCommand.java:79)
        at py4j.GatewayConnection.run(GatewayConnection.java:207)
        at java.lang.Thread.run(Unknown Source)

>>> lines.first()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Spark\spark-1.1.0-bin-hadoop1\python\pyspark\rdd.py", line 1167, in f
irst
    return self.take(1)[0]
  File "C:\Spark\spark-1.1.0-bin-hadoop1\python\pyspark\rdd.py", line 1126, in t
ake
    totalParts = self._jrdd.partitions().size()
  File "C:\Spark\spark-1.1.0-bin-hadoop1\python\lib\py4j-0.8.2.1-src.zip\py4j\ja
va_gateway.py", line 538, in __call__
  File "C:\Spark\spark-1.1.0-bin-hadoop1\python\lib\py4j-0.8.2.1-src.zip\py4j\pr
otocol.py", line 300, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling o20.partitions.
: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: fil
e:/C:/Spark/spark-1.1.0-bin-hadoop1/bin/README.md
        at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.j
ava:197)
        at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.ja
va:208)
        at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:179)
        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:204)
        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:202)
        at scala.Option.getOrElse(Option.scala:120)
        at org.apache.spark.rdd.RDD.partitions(RDD.scala:202)
        at org.apache.spark.rdd.MappedRDD.getPartitions(MappedRDD.scala:28)
        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:204)
        at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:202)
        at scala.Option.getOrElse(Option.scala:120)
        at org.apache.spark.rdd.RDD.partitions(RDD.scala:202)
        at org.apache.spark.api.java.JavaRDDLike$class.partitions(JavaRDDLike.sc
ala:50)
        at org.apache.spark.api.java.JavaRDD.partitions(JavaRDD.scala:32)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
        at java.lang.reflect.Method.invoke(Unknown Source)
        at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231)
        at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:379)
        at py4j.Gateway.invoke(Gateway.java:259)
        at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
        at py4j.commands.CallCommand.execute(CallCommand.java:79)
        at py4j.GatewayConnection.run(GatewayConnection.java:207)
        at java.lang.Thread.run(Unknown Source)

>>>
哈维尔·科尔特霍索(Javier Cortejoso)

我没有尝试在Windows系统中运行spark,但是在我看来,问题是:

py4j.protocol.Py4JJavaError:调用o26.collect时发生错误。:org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:fil e:/ C:/Spark/spark-1.1.0-bin-hadoop1/bin/README.md

您必须正确引用要加载的文件。如果您从spark文件夹(即C:\spark运行pyspark ,则lines = sc.textFile("README.md")是正确的。但是,如果从bin(即:)运行pyspark,则C:\spark\bin必须将其引用为:lines = sc.textFile("../README.md"),或使用文件的绝对路径。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

输入路径不存在错误Apache Spark

来自分类Dev

错误:输入目录“文件”不存在

来自分类Dev

nutch 1.10输入路径不存在/ linkdb / current

来自分类Dev

运行 WordCount MapReduce 时输入路径不存在

来自分类Dev

Android Studio 1.0.2错误-“本地路径不存在”

来自分类Dev

python中不存在mkdir错误文件路径

来自分类Dev

update-alternatives:错误:替代路径...不存在

来自分类Dev

AZ CLI/kubectl 应用错误 - - 路径不存在

来自分类Dev

PySpark 到 PMML - “字段标签不存在”错误

来自分类Dev

var hFile = sc.textFile(“ hdfs:// localhost:9000 / ex1 / cen.csv”)输入路径不存在错误

来自分类Dev

页面不存在错误

来自分类Dev

错误:不存在模板

来自分类Dev

即使在正确的位置提到了输入文件,输入文件也不存在-pyspark

来自分类Dev

android gradle本地路径不存在

来自分类Dev

tesseract数据路径不存在

来自分类Dev

写入路径尚不存在的文件

来自分类Dev

设计注册路径不存在

来自分类Dev

春季批处理:输入资源不存在类路径资源

来自分类Dev

TortoiseSVN错误:存储库中不存在工作副本路径

来自分类Dev

将包添加到类路径时,包不存在错误

来自分类Dev

使用CurrentProject.Path作为FileDialog中的默认文件夹的“路径不存在”错误

来自分类Dev

回送存储错误-路径不存在:未定义

来自分类Dev

jayway jsonpath读取尽管配置为不存在的json路径时抛出错误

来自分类Dev

如何修复Angular中的“错误:路径“ / __ path __ / __ name @ dasherize @ if-flat不存在”

来自分类Dev

flask-路径不存在,但仍然发生相同的错误

来自分类Dev

引用不存在的路径时,Azure Web 应用程序抛出错误

来自分类Dev

如何修复导致“ubuntu 内部错误”的不存在的可执行路径?

来自分类Dev

您输入的表达式是指已关闭或不存在的对象错误

来自分类Dev

错误处理:如果数据库行不存在则显示空白输入页

Related 相关文章

  1. 1

    输入路径不存在错误Apache Spark

  2. 2

    错误:输入目录“文件”不存在

  3. 3

    nutch 1.10输入路径不存在/ linkdb / current

  4. 4

    运行 WordCount MapReduce 时输入路径不存在

  5. 5

    Android Studio 1.0.2错误-“本地路径不存在”

  6. 6

    python中不存在mkdir错误文件路径

  7. 7

    update-alternatives:错误:替代路径...不存在

  8. 8

    AZ CLI/kubectl 应用错误 - - 路径不存在

  9. 9

    PySpark 到 PMML - “字段标签不存在”错误

  10. 10

    var hFile = sc.textFile(“ hdfs:// localhost:9000 / ex1 / cen.csv”)输入路径不存在错误

  11. 11

    页面不存在错误

  12. 12

    错误:不存在模板

  13. 13

    即使在正确的位置提到了输入文件,输入文件也不存在-pyspark

  14. 14

    android gradle本地路径不存在

  15. 15

    tesseract数据路径不存在

  16. 16

    写入路径尚不存在的文件

  17. 17

    设计注册路径不存在

  18. 18

    春季批处理:输入资源不存在类路径资源

  19. 19

    TortoiseSVN错误:存储库中不存在工作副本路径

  20. 20

    将包添加到类路径时,包不存在错误

  21. 21

    使用CurrentProject.Path作为FileDialog中的默认文件夹的“路径不存在”错误

  22. 22

    回送存储错误-路径不存在:未定义

  23. 23

    jayway jsonpath读取尽管配置为不存在的json路径时抛出错误

  24. 24

    如何修复Angular中的“错误:路径“ / __ path __ / __ name @ dasherize @ if-flat不存在”

  25. 25

    flask-路径不存在,但仍然发生相同的错误

  26. 26

    引用不存在的路径时,Azure Web 应用程序抛出错误

  27. 27

    如何修复导致“ubuntu 内部错误”的不存在的可执行路径?

  28. 28

    您输入的表达式是指已关闭或不存在的对象错误

  29. 29

    错误处理:如果数据库行不存在则显示空白输入页

热门标签

归档