如何在没有自定义案例类的情况下将包含大量列的镶木地板文件读取到数据集？

Ab3 发表于 Dev

抗体3

我想使用数据集而不是数据框。

我正在读取实木复合地板文件，并希望直接推断类型：

val df: Dataset[Row] = spark.read.parquet(path)

我只想要Dataset[Row]一个Dataset。

我知道我可以做类似的事情：

val df= spark.read.parquet(path).as[myCaseClass]

但是，我的数据有很多列！因此，如果我可以避免编写案例类，那就太好了！

杰西克·拉斯考夫斯基

为什么要使用Dataset？我认为这是因为您不仅将拥有免费的架构（DataFrame无论如何您都会拥有结果），还因为您将拥有类型安全的架构。

您需要Encoder为数据集提供一个，并且需要一个能代表您的数据集和模式的类型。

您可以select选择合理数量的列并使用，as[MyCaseClass]还是应该接受DataFrame提供的内容。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-03-4

我来说两句

0条评论

登录后参与评论

上一篇：Star micronics mpop iOS SDK-使用空白代码页保存和打印字符

来自分类Dev

如何将Azure数据集标记为从具有日期分区的镶木地板文件夹中读取的时间序列数据集？

来自分类Dev

如何使用Spark将镶木地板数据转换为案例类？

来自分类Dev

如何在没有自定义类的情况下将 UILabel 添加到 UICollectionViewCell？

来自分类Dev

Pandas：合并具有不同列 dtypes 的镶木地板文件 - 用预定义的架构编写镶木地板？

来自分类Dev

如何处理大量的镶木地板文件

来自分类Dev

如何在没有EntityDataSource的情况下将数据从SQL Server获取到DevExpress FileManager

来自分类Dev

如何在没有jshint警告的情况下以角度定义自定义包？

来自分类Dev

如何在没有xmlns / idQ的情况下将组添加到（VBA）自定义功能区？

来自分类Dev

如何在没有父级的情况下将xml膨胀为自定义视图

来自分类Dev

如何在没有xmlns / idQ的情况下将组添加到（VBA）自定义功能区？

来自分类Dev

如何连接两个镶木地板数据集？

来自分类Dev

如何在没有自定义HTML标签的情况下使用AngularJS？

来自分类Dev

如何在没有ControlTemplate的情况下创建WPF自定义控件？

来自分类Dev

如何在没有 <li> 的情况下显示欧芹自定义错误消息

来自分类Dev

通过首先阅读镶木地板文件将新列追加到数据框

来自分类Dev

在没有JQuery的情况下将JSON文件读取到Javascript数组

来自分类Dev

将文件读取到自定义类构造函数

来自分类Dev

如何使用Databricks将.rdata文件转换为Azure数据湖中的镶木地板？

来自分类Dev

如何将小的镶木地板文件合并为一个大的镶木地板文件？

来自分类Dev

如何在没有属性的情况下基于Enity类将数据插入JavaFX TableView？

来自分类Dev

如何在没有案例类的情况下解析JSON Scala

来自分类Dev

Rails 4如何在没有更新功能的情况下为用户设置自定义参数集？

来自分类Dev

如何在没有phpMyAdmin的情况下将SQL文件导入MySQL数据库

来自分类Dev

使用apache箭头在一个R数据框中读取分区的镶木地板目录（所有文件）

来自分类Dev

Apache-Drill 查询镶木地板文件：镶木地板记录读取器出错

来自分类Dev

如何在没有SDK或自定义应用ID的情况下创建Facebook分享按钮？

来自分类Dev

在没有spring的情况下如何在Hibernate Validator中使用自定义错误消息？

来自分类Dev

如何在没有jquery的情况下使用title属性创建自定义工具提示

来自分类Dev

未插入值时如何在没有自定义管道过滤的情况下显示整个表

Related 相关文章

文章