如何在 spark 中解析 json 文件?以及如何在 spark 或 hdfs 中插入 dynamo DB?

大贤公园

我想在 spark(scala) 中解析 json 文件。接下来我要保存txt文件..保存在HDFS中的Json文件。

如何使用 scala 解析 json 文件?

json 文件示例)metadata.json

{"ID": "ABCDEFG", "product": "computer", "review": "good"}
{"ID": "ZXCVBND", "product": "computer", "review": "bad"}

我想解析 ID 并查看。解析后==>

 ABCDEFG :: good
 ZXCVBND :: bad
阿尔特姆

看起来很简单 - 从 json 读取数据,使用 Spark sql 创建查询,并将数据保存到 hdfs:

val df = spark.read.json("json/in/hdfs/data.json")
df.show()
val myDF = spark.read.json(path)
myDF.printSchema()//for debug purposes
myDF.createOrReplaceTempView("myData")
val selectedDF = spark.sql("SELECT id, parse FROM myData")
                      .map(attributes => attributes(0) + " :: " + attributes(1)) 
selectedDF.write().fomat("json").saveAsTextFile("hdfs://...")

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在 scala spark 2.0 中解析 json 文件并将数据插入到 hive 表中?

来自分类Dev

如何在Spark中读取HDFS序列文件

来自分类Dev

如何在Spark SQL中解析嵌套的JSON对象?

来自分类Dev

如何在Java Spark中解析JSON请求

来自分类Dev

如何在 lambda 函数中创建 json 并将其插入到亚马逊 Web 服务 dynamo db 中

来自分类Dev

在Spark中从HDFS或S3读取边缘DB文件

来自分类Dev

如何在python,Spark json文件中拆分列

来自分类Dev

如何使用Spark快速从map()中的HDFS中读取文件

来自分类Dev

如何使用Spark快速从map()中的HDFS中读取文件

来自分类Dev

在spark中合并seq json hdfs文件中的重复列

来自分类Dev

如何在 Dynamo DB 中设置布尔字段?

来自分类Dev

HDFS中的文件如何处理Spark分区?

来自分类Dev

如何在Spark Scala中读取多行嵌套json

来自分类Dev

如何在C#中的Amazon Dynamo DB中为Json属性(列值)创建全局二级索引?

来自分类Dev

如何解析嵌套在spark中的Json对象

来自分类Dev

无法在Spark中使用HDFS中的文件

来自分类Dev

Spark仅在HDFS中读取

来自分类Dev

如何在Spark中解码HTML实体?

来自分类Dev

如何在Spark中收集单个列?

来自分类常见问题

如何在Spark中覆盖输出目录

来自分类Dev

如何在Spark Table中创建索引?

来自分类Dev

如何在Spark中访问此类数据

来自分类Dev

如何在Spark中实现“交叉加入”?

来自分类Dev

如何在Spark中配置HBase?

来自分类Dev

如何在Spark中读取嵌套集合

来自分类Dev

如何在Spark中返回空字段

来自分类Dev

如何在SPARK SQL中舍入小数

来自分类Dev

如何在Spark中释放数据帧?

来自分类Dev

如何在Spark中执行辅助排序?

Related 相关文章

热门标签

归档