SQLContext 与 DataFrameLoader

debugcn 发表于 Dev

冗长的序言

我正在做一本书的练习，但它不喜欢 SQLContext.load 的使用方式。第一步使用特定参数启动pyspark：

pyspark --driver-class-path /usr/share/java/mysql-connector-java-5.1.39-bin.jar --master local

这一切顺利。接下来，导入：

from pyspark.sql import SQLContext
sqlctx = SQLContext(sc)

然后是有争议的部分：

>>> employeesdf = sqlctx.load(source="jdbc",
... url="jdbc:mysql://localhost:3306/employees?user=<user>&password=<pwd>",
... dbtable="employees",
... partitionColumn="emp_no",
... numPartitions="2",
... lowerBound="10001",
... upperBound="499999"
... )

现在，我应该使用employees.rdd.getNumPartitions() 来跟进，但在上一个字符串的末尾之前，我收到错误“ AttributeError: 'SQLContext' object has no attribute 'load' ”

这本书似乎已经预料到了这一点，因为它说，“检查您正在使用的 Spark 版本的 API 文档，在最近的版本中，我们鼓励您使用DataFrameReader对象中的加载方法而不是SQLContext。”

所以我尝试了相同的例子，除了用“DataFrameReader”替换“sqlctx”：

>>> employeesdf = DataFrameReader.load(source="jdbc",
... url="jdbc:mysql://localhost:3306/employees?user=<user>password=<pwd>",
... dbtable="employees",
... partitionColumn="emp_no",
... numPartitions="2",
... lowerBound="10001",
... upperBound="499999"
... )

然后我得到错误：“ TypeError: unbound method load() must be called with DataFrameReader instance as first parameter ( got nothing instead) ” 所以我怀疑我使用DataFrameReader不正确，但尽管浏览了文档我不能告诉正确的用法是什么。谁能告诉我我做错了什么？在此先感谢您的帮助。

（Spark 版本为 2.1.1）

加伦

SQLContext 不是为 spark 2.x 加载数据的首选方式；它的存在是为了向后兼容。spark.read.jdbc在 spark 是 SparkSession 对象的地方使用。SparkSession 是一种最新的现代方式，可以访问以前封装在 SparkContext 和 SQLContext 中的几乎所有内容。我推荐 Jacek 的关于掌握 spark 的 git 书，作为当前 Spark API (2.x) 的非凡指南，并且实际上是关于 Spark 的一般。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-11

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

SQLContext 与 DataFrameLoader

SQLContext 与 DataFrameLoader

Spark DataFrame与sqlContext

SQLContext隐式

Zeppelin和SqlContext

Spark DataFrame与sqlContext

Spark SqlContext输出JSON格式

用sqlcontext激发并行查询

sqlContext.table 中的“表”

如何模拟 Spark SqlContext 的方法？

如何使用Scala在Spark中创建SQLContext？

Spark Scala：无法导入sqlContext.implicits._

引发SqlContext错误。步骤“连接”失败

spark HiveContext / SQLContext如何检索架构/数据？

Spark sqlContext UDF作用于集合

如何模拟sqlContext.read.parquet（）？

引发SqlContext错误。步骤“连接”失败

使用 Apache Spark SQLContext 写入错误

获取 sparksession 和 SQLContext 的依赖错误

带有标头的 Spark SQLContext 查询

从Scala将UDF注册到SqlContext以在PySpark中使用

Apache Spark SQLContext与HiveContext有什么区别？

pyspark：如何获取spark数据帧的Spark SQLContext？

Spark：AttributeError：'SQLContext'对象没有属性'createDataFrame'

DataFrame.save（）/ sqlContext.load丢失架构的“空”状态

NoSuchMethodError：org.apache.spark.sql.SQLContext.sql

Pyspark 2.1.0 SQLcontext show() 方法在表后打印奇怪的 None

如果我正在读取JSON字符串，则SQLContext.createDataframe（RDD，StructType）与SQLContext.read（）。schema（StructType）.json（RDD）之间的区别？

SqlContext不是软件包org.apache.spark.sql的成员

spark-SparkContext和SqlContext-生命周期和threadafty

如何使SQLCLR存储的proc中的SqlContext.Pipe.Send与Unicode一起工作？