搜索

搜索

如何在 Spark 中读取多个文本文件进行文档聚类？

debugcn 发表于 Dev

14

桑迪普·乔希

我想从一个目录中读取多个文本文档以进行文档聚类。为此，我想将数据读取为：

SparkConf sparkConf = new SparkConf().setAppName(appName).setMaster("local[*]").set("spark.executor.memory", "2g");
JavaSparkContext context = new JavaSparkContext(sparkConf);
SparkSession spark = SparkSession.builder().config(sparkConf).getOrCreate();
Dataset<Row> dataset = spark.read().textFile("path to directory");

在这里，我不想使用
JavaPairRDD data = context.wholeTextFiles(path); 因为我想要 Dataset 作为返回类型。

它是

在 Scala 中，你可以这样写：

context.wholeTextFiles("...").toDS()

在 Java 中，您需要使用编码器。有关更多详细信息，请参阅javadoc。

JavaPairRDD<String, String> rdd = context.wholeTextFiles("hdfs:///tmp/test_read");
Encoder<Tuple2<String, String>> encoder = Encoders.tuple(Encoders.STRING(), Encoders.STRING());
spark.createDataset(rdd.rdd(), encoder).show();

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-16

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

如何在Spark中从文本文件创建DataFrame

来自分类Dev

如何在Java Spark中读取文本文件并将其转换为数据集？

来自分类Dev

如何在Matlab中读取多个文本文件？

来自分类Dev

如何在Matlab中读取多个文本文件？

来自分类Dev

Spark如何读取没有文件扩展名的管道分隔文本文件

来自分类Dev

如何在Spark中进行文本分析

来自分类Dev

如何在Spark / Scala中从具有频率计数的文本文件创建双字母组？

来自分类Dev

Delphi FMX（Android）-如何在zip流中读取文本文件而不进行提取？

来自分类Dev

如何在python的文本文件中读取数字？

来自分类Dev

如何在Python中从文本文件读取input（）

来自分类Dev

如何在python中逐行读取文本文件

来自分类Dev

如何在Android中读取文本文件？

来自分类Dev

如何防止Spark分割文本文件

来自分类Dev

如何在Spark中读取嵌套集合

来自分类Dev

从Spark压缩中读取整个文本文件

来自分类Dev

在 Scala/Spark 中从 HDFS 读取文本文件

来自分类Dev

如何读取多行文本文件

来自分类Dev

如何将Spark sql查询的所有输出保存到文本文件中

来自分类Dev

如何在Spark中读取多个线元素？

来自分类Dev

如何在Spark Scala中动态读取文本文件（字符串类型数据）映射并将数据加载为拼花格式（具有不同数据类型的多列）

来自分类Dev

如何在Spark中读取HDFS序列文件

来自分类Dev

如何在Python中读取多个nltk语料库文件并写入单个文本文件

来自分类Dev

如何在Spark上删除Parquet文件？

来自分类Dev

如何在 Spark 中编写一个独立的应用程序，以在填充了提取的推文的文本文件中找到 20 个大多数提及

来自分类Dev

如何在Spark中解码HTML实体？

来自分类Dev

如何在Spark中收集单个列？

来自分类常见问题

如何在Spark中覆盖输出目录

来自分类Dev

如何在Spark Table中创建索引？

来自分类Dev

如何在Spark中访问此类数据

Related 相关文章

文章

热门标签

归档