Spark는 Apache Orc 파일을 제거합니다.

debugcn 에 게시 Dev

사용자 979899

다음과 같이 스파크 셸을 사용하여 스파크 데이터 프레임을 orc-file로 저장했습니다.

    jdbcDF.write.format("orc").partitionBy("ID").save("applicationsPartitioned")

이제 데이터가 windows \ system32 \ applicationsPartitioned에 있음을 알았습니다.

오크 파일을 올바르게 제거하려면 어떻게해야합니까? 스파크를 종료하고 디렉토리를 직접 제거 할 수 있지만이 디렉토리에 대해 일부 메타 데이터가 저장되어 있습니까?

Assaf Mendelson

수동으로 수행해야하지만 하둡 파일 시스템을 사용하여 수행 할 수 있습니다.

예를 들면 :

import org.apache.hadoop.fs.FileSystem
import org.apache.hadoop.fs.Path
val fs = FileSystem.get(spark.sparkContext.hadoopConfiguration)
fs.delete(new Path(path), recursive)

이것은 OS와 파일 시스템을 독립적으로 만들 것입니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-19

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Spark는 Apache Orc 파일을 제거합니다.

Spark는 Apache Orc 파일을 제거합니다.

Spark로 중첩 된 ORC 파일 병합-성능 문제

Apache rewrite는 URL에서 .jpg.html을 제거합니다.

Apache rewrite는 URL에서 .jpg.html을 제거합니다.

Apache는 HTTP 대신 SFTP를 사용하여 파일을 제공합니다.

PHP 코드에서 ORC 또는 Parquet 파일을 만드는 방법은 무엇입니까?

node.js는 .txt 파일에서 줄을 제거합니다.

NLog는 3 개월 된 파일을 제거합니다.

bash는 두 파일에서 공통 행을 제거합니다.

rails는 공용 폴더의 파일을 제거합니다.

Apache Spark : HDFS 대신 로컬에서 파일로드 및 IllegalArguementException을 제공하는 로컬 파일로드

ORC 파일의 Spark SQL이 올바른 스키마 (열 이름)를 반환하지 않습니다.

Scala 컴파일러가 Spark 1.4에 대해 "registerKryoClasses가 org.apache.spark.SparkConf의 멤버가 아닙니다"값을 제공하는 이유는 무엇입니까?

Apache는 PHP 파일을 실행하는 대신 다운로드합니다.

Apache Orc RecordReader.searchArgument ()가 올바르게 필터링되지 않는 이유는 무엇입니까?

Django는 파일을 삭제합니다.

모든 파일을 제거하는 방법은 특정 파일을 제외합니다.

Apache는 다운로드 대신 ZIP 파일을 읽습니다.

SparkR을 사용하여 Apache Spark에서 CSV 파일을 작성하는 방법은 무엇입니까?

Apache는 새 파일 URL에 전역 적으로 1 개의 파일을 다시 작성합니다.

Apache는 conf 파일을 어떤 순서로로드합니까?

다른 파일에서 패턴과 일치하는 파일의 값을 제거합니다.

Apache는 .php 파일을로드하지 않습니다.

Apache POI가 xls 파일을 읽는 NPE를 가져옵니다.

Jenkins Docker는 단계 완료 후 생성 된 파일을 제거합니다.

gulp minify-css는 scss 파일의 주석을 제거합니다.

Dropzone.js는 이벤트가 발생한 후 파일을 제거합니다.

bash는 폴더의 txt 파일에서 중복 줄을 제거합니다.

Debian dist-upgrade는 apache2를 제거합니다.

Java는 파일 경로의 일부를 제거합니다.