使用spark-submit运行时无法加载com.databricks.spark.csv

文卡塔玛娜(Venkataramana)

我正在尝试使用以下命令通过spark-submit运行我的代码。

spark-submit --class "SampleApp" --master local[2] target/scala-2.11/sample-project_2.11-1.0.jar

我的sbt文件具有以下依赖关系:

libraryDependencies += "org.apache.spark" %% "spark-core" % "1.4.1"

libraryDependencies += "org.apache.spark" % "spark-sql_2.11" % "1.5.2"

libraryDependencies += "com.databricks" % "spark-csv_2.11" % "1.2.0"

我的代码:

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import scala.collection.mutable.ArrayBuffer 
import org.apache.spark.sql.SQLContext

object SampleApp {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("Sample App").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc) 

    import sqlContext._ 
    import sqlContext.implicits._

    val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "/root/input/Account.csv", "header" -> "true"))

    val column_names = df.columns
    val row_count = df.count
    val column_count = column_names.length

    var pKeys = ArrayBuffer[String]()

    for ( i <- column_names){
         if (row_count == df.groupBy(i).count.count){
             pKeys += df.groupBy(i).count.columns(0)
         }
     }

    pKeys.foreach(print)
  }
}

错误:

16/03/11 04:47:37 INFO BlockManagerMaster: Registered BlockManager
Exception in thread "main" java.lang.RuntimeException: Failed to load class for data source: com.databricks.spark.csv
    at scala.sys.package$.error(package.scala:27)
    at org.apache.spark.sql.sources.ResolvedDataSource$.lookupDataSource(ddl.scala:220)
    at org.apache.spark.sql.sources.ResolvedDataSource$.apply(ddl.scala:233)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:114)
    at org.apache.spark.sql.SQLContext.load(SQLContext.scala:1253)

我的Spark版本是1.4.1,Scala是2.11.7

(我正在跟踪此链接:http : //www.nodalpoint.com/development-and-deployment-of-spark-applications-with-scala-eclipse-and-sbt-part-1-installation-configuration/

我尝试了以下版本的spark csv

spark-csv_2.10 1.2.0
1.4.0 
1.3.1
1.3.0
1.2.0
1.1.0
1.0.3
1.0.2
1.0.1
1.0.0

等等。

请帮忙!

深潜

更好的解决方案是使用--packages如下所示的选项。

spark-submit --class "SampleApp" --master local[2] --packages com.databricks:spark-csv_2.10:1.5.0 target/scala-2.11/sample-project_2.11-1.0.jar

确保该--packages选项在应用程序jar之前

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用spark-submit运行时无法加载com.databricks.spark.csv

来自分类Dev

通过RStudio加载com.databricks.spark.csv

来自分类Dev

Spark REST API:无法找到数据源:com.databricks.spark.csv

来自分类Dev

Databricks spark-csv检查空文件

来自分类Dev

Databricks spark-csv检查空文件

来自分类Dev

Databricks包com.databricks.spark.xml出现编码问题

来自分类Dev

在SnappyData v.0.5.2中找不到内置提供程序com.databricks.spark.csv

来自分类Dev

Databricks Spark Conf

来自分类Dev

解决spark-avro错误=无法加载数据源的类:com.databricks.spark.avro

来自分类Dev

Databricks Spark UDF无法在过滤的数据帧上运行

来自分类Dev

以编程方式将 Databricks spark-csv 添加到 Spark 1.6.2 客户端

来自分类Dev

使用 spark databricks 平台从 URL 读取数据

来自分类Dev

无法在Databricks上运行spark.eventLog.enabled true和spark.eventLog.dir

来自分类Dev

将数据从Google BigQuery加载到Spark(在Databricks上)

来自分类Dev

通过.Net UI在Databricks上运行Spark SQL查询

来自分类Dev

Spark / Databricks 代码无法识别日期字段错误

来自分类Dev

java.lang.NoClassDefFoundError:com / databricks / spark / avro / package $

来自分类Dev

Apache Spark未加载运行时环境配置,无法提交作业

来自分类Dev

如何使用Spark加载JSON(保存在csv中的路径)?

来自分类Dev

在PySpark中,SparkSession和Databricks的用于导入CSV文件的Spark-CSV模块有什么区别?

来自分类Dev

Azure Databricks:如何在Databricks群集中添加Spark配置

来自分类Dev

使用Databricks中的Spark API连接到ADLS

来自分类Dev

Azure Databricks:使用Spark SQL进行地理空间查询

来自分类Dev

spark-avro databricks软件包

来自分类Dev

在Azure Databricks中编写Spark数据框

来自分类Dev

从Spark Databricks文件系统填充属性对象

来自分类Dev

无法使用 spark-shell 启动 spark

来自分类Dev

无法使用Spark Shell

来自分类常见问题

Azure Databricks无法初始化类org.apache.spark.eventhubs.EventHubsConf

Related 相关文章

  1. 1

    使用spark-submit运行时无法加载com.databricks.spark.csv

  2. 2

    通过RStudio加载com.databricks.spark.csv

  3. 3

    Spark REST API:无法找到数据源:com.databricks.spark.csv

  4. 4

    Databricks spark-csv检查空文件

  5. 5

    Databricks spark-csv检查空文件

  6. 6

    Databricks包com.databricks.spark.xml出现编码问题

  7. 7

    在SnappyData v.0.5.2中找不到内置提供程序com.databricks.spark.csv

  8. 8

    Databricks Spark Conf

  9. 9

    解决spark-avro错误=无法加载数据源的类:com.databricks.spark.avro

  10. 10

    Databricks Spark UDF无法在过滤的数据帧上运行

  11. 11

    以编程方式将 Databricks spark-csv 添加到 Spark 1.6.2 客户端

  12. 12

    使用 spark databricks 平台从 URL 读取数据

  13. 13

    无法在Databricks上运行spark.eventLog.enabled true和spark.eventLog.dir

  14. 14

    将数据从Google BigQuery加载到Spark(在Databricks上)

  15. 15

    通过.Net UI在Databricks上运行Spark SQL查询

  16. 16

    Spark / Databricks 代码无法识别日期字段错误

  17. 17

    java.lang.NoClassDefFoundError:com / databricks / spark / avro / package $

  18. 18

    Apache Spark未加载运行时环境配置,无法提交作业

  19. 19

    如何使用Spark加载JSON(保存在csv中的路径)?

  20. 20

    在PySpark中,SparkSession和Databricks的用于导入CSV文件的Spark-CSV模块有什么区别?

  21. 21

    Azure Databricks:如何在Databricks群集中添加Spark配置

  22. 22

    使用Databricks中的Spark API连接到ADLS

  23. 23

    Azure Databricks:使用Spark SQL进行地理空间查询

  24. 24

    spark-avro databricks软件包

  25. 25

    在Azure Databricks中编写Spark数据框

  26. 26

    从Spark Databricks文件系统填充属性对象

  27. 27

    无法使用 spark-shell 启动 spark

  28. 28

    无法使用Spark Shell

  29. 29

    Azure Databricks无法初始化类org.apache.spark.eventhubs.EventHubsConf

热门标签

归档