使用org.apache.hadoop:hadoop-aws从pyspark中的s3中读取文件

迪帕克·波加里(Deepak Poojari)

尝试使用hadoop-aws从s3中读取文件,下面将介绍用于运行代码的命令。请帮助我解决此问题并了解我在做什么错。

# run using command
# time spark-submit --packages org.apache.hadoop:hadoop-aws:3.2.1 connect_s3_using_keys.py

from pyspark import SparkContext, SparkConf
import ConfigParser
import pyspark

# create Spark context with Spark configuration
conf = SparkConf().setAppName("Deepak_1ST_job")
sc = SparkContext(conf=conf)
sc.setLogLevel("ERROR")

hadoop_conf = sc._jsc.hadoopConfiguration()

config = ConfigParser.ConfigParser()
config.read("/home/deepak/Desktop/secure/awsCred.cnf")
accessKeyId = config.get("aws_keys", "access_key")
secretAccessKey = config.get("aws_keys", "secret_key")

hadoop_conf.set(
    "fs.s3n.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
hadoop_conf.set("fs3a.access.key", accessKeyId)
hadoop_conf.set("s3a.secret.key", secretAccessKey)

sqlContext = pyspark.SQLContext(sc)

df = sqlContext.read.json("s3a://bucket_name/logs/20191117log.json")
df.show()

编辑1:

由于我是pyspark的新手,因此我并不了解这些依赖项,因此该错误也不容易理解。

作为错误

File "/home/deepak/spark/spark-3.0.0-preview-bin-hadoop3.2/python/lib/pyspark.zip/pyspark/sql/utils.py", line 98, in deco
  File "/home/deepak/spark/spark-3.0.0-preview-bin-hadoop3.2/python/lib/py4j-0.10.8.1-src.zip/py4j/protocol.py", line 328, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling o28.json.
: java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;Ljava/lang/Object;)V
        at org.apache.hadoop.fs.s3a.S3AUtils.lookupPassword(S3AUtils.java:816)
        at org.apache.hadoop.fs.s3a.S3AUtils.lookupPassword(S3AUtils.java:792)
        at org.apache.hadoop.fs.s3a.S3AUtils.getAWSAccessKeys(S3AUtils.java:747)
        at org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider.
大卫·瓦利

我在spark 3.0.0 / hadoop 3.2中遇到了相同的问题。

什么工作对我来说是替换hadoop-aws-3.2.1.jarspark-3.0.0-bin-hadoop3.2/jarshadoop-aws-3.2.0.jar这里找到:https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/3.2.0

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Apache Hadoop 2.2中的org.apache.hadoop.mapreduce导入问题

来自分类Dev

使用org.apache.hadoop.utilProgressable接口

来自分类Dev

如何解决预期的 org.apache.hadoop.io.Text,在 mapreduce 作业中收到 org.apache.hadoop.io.LongWritable

来自分类Dev

Hadoop MultipleOutputFormat对org.apache.hadoop.mapreduce.Job的支持

来自分类Dev

Hadoop错误.ClassCastException:无法将org.apache.hadoop.io.LongWritable强制转换为org.apache.hadoop.io.Text

来自分类Dev

org.apache.hadoop.io.Text无法转换为org.apache.hadoop.io.NullWritable

来自分类Dev

错误org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode:doCheckpoint中的异常

来自分类Dev

为什么IdentityMapper在org.apache.hadoop.mapreduce库中消失?

来自分类Dev

线程“主”中的异常java.lang.NoClassDefFoundError:org / apache / hadoop / util / Tool

来自分类Dev

在 hbase 1.2.6 中找不到 org.apache.hadoop.hbase.mapreduce 和 mapred 包

来自分类Dev

找不到方案的文件系统:hdfs和类org.apache.hadoop.DistributedFileSystem

来自分类Dev

可运行的 JAR 文件:未找到实现“org.apache.hadoop.util.Tool”的类

来自分类Dev

绕过org.apache.hadoop.mapred.InvalidInputException:输入模式s3n:// [...]匹配0个文件

来自分类Dev

Hadoop-错误:找到接口org.apache.hadoop.mapreduce.TaskAttemptContext

来自分类Dev

Spring Hadoop配置-没有类型为org.apache.hadoop.conf.Configuration的合格Bean

来自分类Dev

使用Visual Studio 2010的Apache hadoop源代码中的“错误:预期的声明”

来自分类Dev

使用Mongo-Hadoop连接器通过Apache Spark更新MongoDb中的集合

来自分类Dev

使用Visual Studio 2010的Apache hadoop源代码中的“错误:预期的声明”

来自分类Dev

HBase异常:org.apache.hadoop.hbase.UnknownRowLockException

来自分类Dev

java.lang.ClassNotFoundException:org.apache.hadoop.util.StopWatch

来自分类Dev

org.apache.hadoop.hbase.client.HConnectionManager.createConnection的InvocationTargetException异常

来自分类Dev

org.apache.hadoop.hdfs.DFSInputStream上的NoSuchMethodError

来自分类Dev

java.lang.NoClassDefFoundError:org / apache / hadoop / hdfs / BenchmarkThroughput

来自分类Dev

找到接口org.apache.hadoop.mapreduce.TaskAttemptContext

来自分类Dev

错误org.apache.hadoop.hbase.regionserver.LeaseException

来自分类Dev

org.apache.hadoop.security.AccessControlException:/ user / rstudio(不是目录)

来自分类Dev

java.lang.NoClassDefFoundError:org.apache.hadoop.hbase.HBaseConfiguration

来自分类Dev

错误org.apache.hadoop.hbase.regionserver.LeaseException

来自分类Dev

org.apache.hadoop.fs.ParentNotDirectoryException: /tmp (不是目錄)

Related 相关文章

  1. 1

    Apache Hadoop 2.2中的org.apache.hadoop.mapreduce导入问题

  2. 2

    使用org.apache.hadoop.utilProgressable接口

  3. 3

    如何解决预期的 org.apache.hadoop.io.Text,在 mapreduce 作业中收到 org.apache.hadoop.io.LongWritable

  4. 4

    Hadoop MultipleOutputFormat对org.apache.hadoop.mapreduce.Job的支持

  5. 5

    Hadoop错误.ClassCastException:无法将org.apache.hadoop.io.LongWritable强制转换为org.apache.hadoop.io.Text

  6. 6

    org.apache.hadoop.io.Text无法转换为org.apache.hadoop.io.NullWritable

  7. 7

    错误org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode:doCheckpoint中的异常

  8. 8

    为什么IdentityMapper在org.apache.hadoop.mapreduce库中消失?

  9. 9

    线程“主”中的异常java.lang.NoClassDefFoundError:org / apache / hadoop / util / Tool

  10. 10

    在 hbase 1.2.6 中找不到 org.apache.hadoop.hbase.mapreduce 和 mapred 包

  11. 11

    找不到方案的文件系统:hdfs和类org.apache.hadoop.DistributedFileSystem

  12. 12

    可运行的 JAR 文件:未找到实现“org.apache.hadoop.util.Tool”的类

  13. 13

    绕过org.apache.hadoop.mapred.InvalidInputException:输入模式s3n:// [...]匹配0个文件

  14. 14

    Hadoop-错误:找到接口org.apache.hadoop.mapreduce.TaskAttemptContext

  15. 15

    Spring Hadoop配置-没有类型为org.apache.hadoop.conf.Configuration的合格Bean

  16. 16

    使用Visual Studio 2010的Apache hadoop源代码中的“错误:预期的声明”

  17. 17

    使用Mongo-Hadoop连接器通过Apache Spark更新MongoDb中的集合

  18. 18

    使用Visual Studio 2010的Apache hadoop源代码中的“错误:预期的声明”

  19. 19

    HBase异常:org.apache.hadoop.hbase.UnknownRowLockException

  20. 20

    java.lang.ClassNotFoundException:org.apache.hadoop.util.StopWatch

  21. 21

    org.apache.hadoop.hbase.client.HConnectionManager.createConnection的InvocationTargetException异常

  22. 22

    org.apache.hadoop.hdfs.DFSInputStream上的NoSuchMethodError

  23. 23

    java.lang.NoClassDefFoundError:org / apache / hadoop / hdfs / BenchmarkThroughput

  24. 24

    找到接口org.apache.hadoop.mapreduce.TaskAttemptContext

  25. 25

    错误org.apache.hadoop.hbase.regionserver.LeaseException

  26. 26

    org.apache.hadoop.security.AccessControlException:/ user / rstudio(不是目录)

  27. 27

    java.lang.NoClassDefFoundError:org.apache.hadoop.hbase.HBaseConfiguration

  28. 28

    错误org.apache.hadoop.hbase.regionserver.LeaseException

  29. 29

    org.apache.hadoop.fs.ParentNotDirectoryException: /tmp (不是目錄)

热门标签

归档