使用spark-submit设置Spark Job的HBase属性

缩进

在Hbase数据迁移期间,我遇到了一个java.lang.IllegalArgumentException: KeyValue size too large

从长远来看:

我需要在中增加属性hbase.client.keyvalue.maxsize(从1048576到10485760),/etc/hbase/conf/hbase-site.xml但现在不能更改此文件(我需要验证)。

在短期内 :

我使用命令成功导入了数据:

hbase org.apache.hadoop.hbase.mapreduce.Import \
  -Dhbase.client.keyvalue.maxsize=10485760 \
  myTable \
  myBackupFile

现在我需要使用spark-submit运行一个Spark Job

有什么更好的方法:

  • HBase属性以“ spark”为前缀。(我不确定是否可行,是否可行)
spark-submit \
  --conf spark.hbase.client.keyvalue.maxsize=10485760
  • 使用'spark.executor.extraJavaOptions'和'spark.driver.extraJavaOptions'显式传输HBase属性
spark-submit \
  --conf spark.executor.extraJavaOptions=-Dhbase.client.keyvalue.maxsize=10485760 \
  --conf spark.driver.extraJavaOptions=-Dhbase.client.keyvalue.maxsize=10485760
VS_FF

如果可以更改代码,则应该能够以编程方式设置这些属性。我认为过去类似这样的事情过去在Java中对我有用:

Configuration conf = HBaseConfiguration.create();
conf.set("hbase.client.scanner.timeout.period", SCAN_TIMEOUT); // set BEFORE you create the connection object below:
Connection conn = ConnectionFactory.createConnection(conf);

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用HBASE的Spark与使用HDFS的Spark

来自分类Dev

使用saveAsNewAPIHadoopDataSet从Spark存储到HBase时设置NameSpace

来自分类Dev

如何使用Spark从HBase读取

来自分类Dev

无法使用Spark脚本将Spark数据集写入HBase

来自分类Dev

使用Spark从HBase读取特定的列数据

来自分类Dev

如何使用Python连接HBase和Spark?

来自分类Dev

使用Spark删除HBase单元格

来自分类Dev

无法使用Spark Scala递增ColumnValue HBASE

来自分类Dev

在Spark提交中设置Elasticsearch属性

来自分类Dev

如何使用 spark-submit 获取 spark SUBMISSION_ID?

来自分类Dev

spark-submit:传递 java 属性文件给出 FileNotFoundException

来自分类Dev

在python main中使用spark-submit

来自分类Dev

在python main中使用spark-submit

来自分类Dev

Hbase Upsert与Spark

来自分类Dev

如何使用Spark处理一系列HBase行?

来自分类Dev

使用Spark流在Hbase / HDFS中保存protobuf

来自分类Dev

使用Phoenix-Spark API添加HBase时间戳

来自分类Dev

使用 spark 2.1 连接到 Hbase1.2

来自分类Dev

通过hiveContext在Spark Job中使用Hive函数

来自分类Dev

如何使用Zookeeper for HA设置Spark?

来自分类Dev

如何使用Zookeeper for HA设置Spark?

来自分类Dev

Java的Spark Job Server

来自分类Dev

什么是Spark Job?

来自分类Dev

Spark Job内部

来自分类Dev

Spark Job创建时间

来自分类Dev

YARN上的Spark:执行程序内存少于通过spark-submit设置的执行程序内存

来自分类Dev

如果使用 spring boot,我应该使用 spark-submit

来自分类Dev

当使用hbase作为数据源时,spark是否利用hbase键的排序顺序

来自分类Dev

spark2-submit 与 spark-submit 不同