如何在Spark中读取HDFS序列文件

debugcn 发表于 Dev

nish

我正在尝试将文件HDFS（s3在这种情况下）读取为Spark作为RDD。该文件位于中SequenceInputFileFormat。但是我无法将文件的内容解码为字符串。我有以下代码：

package com.spark.example.ExampleSpark;

import java.util.List;
import scala.Tuple2;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.hive.HiveContext;


public class RawEventDump 
{
    public static void main( String[] args )
    {

        SparkConf conf = new SparkConf().setAppName("atlas_raw_events").setMaster("local[2]");
        JavaSparkContext jsc = new JavaSparkContext(conf);

        JavaPairRDD<String, Byte> file = jsc.sequenceFile("s3n://key_id:secret_key@<file>", String.class, Byte.class);
        List<String> values = file.map(
            new Function<Tuple2<String, Byte>, String>() {
            public String call(Tuple2 row) {
                return "Value: " + row._2.toString() + "\n";
            }
        }).collect();
        System.out.println(values);
    }
}

但是我得到以下输出：

Value: 7b 22 65 76 65 6e ...
, Value: 7b 22 65 76 65 6e 74 22 3a ...
, Value: 7b 22 65 76 65 6...
...

如何在Spark中读取文件的内容？

Arnon rotem-gal-oz

序列文件通常使用Hadoop类型，例如TextWritable，BytesWritable，LongWritable等。因此，RDD类型应为 JavaPairRDD<LongWritable, BytesWritable>

然后把你应该调用的字符串 org.apache.hadoop.io.Text.decode(row._2.getBytes())

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-14

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何使用Spark快速从map（）中的HDFS中读取文件

来自分类Dev

如何使用Spark快速从map（）中的HDFS中读取文件

来自分类Dev

如何使用Spark Streaming从序列文件中读取数据

来自分类Dev

如何在 spark 中解析 json 文件？以及如何在 spark 或 hdfs 中插入 dynamo DB？

来自分类Dev

如何在Spark-SQL中处理序列文件

来自分类Dev

spark-scala：如何从 .dat 文件读取数据转换它并最终存储在 HDFS 中

来自分类Dev

使用Apache Spark从HDFS序列文件中创建键值对

来自分类Dev

Spark流无法读取从HDFS中的水槽创建的文件

来自分类Dev

在Spark中从HDFS或S3读取边缘DB文件

来自分类Dev

在 Scala/Spark 中从 HDFS 读取文本文件

来自分类Dev

Spark仅在HDFS中读取

来自分类Dev

如何在 HDFS 文件中搜索

来自分类Dev

如何在Spark2.4的spark2-shell中读取Avro文件？

来自分类Dev

从pyspark读取hdfs中的文件

来自分类Dev

无法使用Spark从HDFS读取文件

来自分类Dev

如何在Spark中读取嵌套集合

来自分类Dev

HDFS中的文件如何处理Spark分区？

来自分类Dev

如何在Java Spark中读取文本文件并将其转换为数据集？

来自分类Dev

如何在Spark中设置FTP被动模式？...以从FTP服务器读取文件

来自分类Dev

如何在 Spark 中读取多个文本文件进行文档聚类？

来自分类Dev

如何从hdfs读取二进制文件到Spark数据帧？

来自分类Dev

如何从hdfs读取二进制文件到Spark数据帧？

来自分类Dev

在Spark Java API中以递归方式从HDFS读取所有文件

来自分类Dev

如何在PySpark中读取Avro文件

来自分类Dev

如何在AngularJS中读取文件？

来自分类Dev

如何在mexopencv中读取avi文件

来自分类Dev

如何在Dart中逐行读取文件

来自分类Dev

如何在Matlab中读取.npy文件

来自分类Dev

如何在python中读取属性文件

Related 相关文章

文章