pyspark를 사용하여 로컬 시스템에서 파일을 읽는 동안 파일 이름 가져 오기

아이언 맨

추가 업데이트 :

hdfs에있는 파일에 대해 동일한 코드를 작성하려고 시도했지만 작동하지만 로컬 파일 시스템에 동일한 코드를 사용하면 오류가 발생합니다. 원인 : java.io.FileNotFoundException : 파일 파일 : /root/cd/parsed_cd_5.xml이 존재하지 않습니다.


원래 질문 및 초기 업데이트

XML 파일을 구문 분석하기 위해 ElementTree사용 하고 있습니다. 나는 파이썬으로 코드를 실행했고 그것은 매력처럼 작동했다. 그러나 스파크를 사용하여 동일하게 실행하려고 할 때 오류가 발생합니다.

오류:

glob.glob (os.path.join (path, '* .xml'))의 파일 이름에 대한 파일 "/root/sparkCD.py", 82 행 : 파일 "/usr/lib64/python2.6/posixpath. py ", 67 행, join elif path == ''또는 path.endswith ( '/') :

오류에서 " for filename in glob.glob (os.path.join (path, '* .xml')) "에 문제가 있음이 분명합니다 . 그러나 나는 pyspark 에서 동일한 것을 달성하는 방법을 모릅니다 . 내 코드를 공유 할 수 없기 때문에 오류가 발생하지 않는 파이썬 코드와 비교하여 오류가 발생하는 부분 만 공유 할 것입니다.

파이썬 :

path = '/root/cd'

for filename in glob.glob(os.path.join(path, '*.xml')):

   tree = ET.parse(filename)

   doc = tree.getroot()

Pyspark :

path = sc.textFile("file:///root/cd/")

for filename in glob.glob(os.path.join(path, '*.xml')):

   tree = ET.parse(filename)

   doc = tree.getroot()

이 문제를 어떻게 해결할 수 있습니까? 내가 원하는 것은 현재 pyspark를 사용하여 로컬 시스템 cd 디렉토리에 있는 현재 처리중인 파일 이름입니다 . 이것이 어리석은 소리라면 용서하십시오.

최신 정보:

아래에 제시된 제안을 시도했지만 파일 이름을 얻지 못했습니다. 아래는 내 코드입니다.

filenme = sc.wholeTextFiles("file:///root/cd/")
nameoffile = filenme.map(lambda (name, text): name.split("/").takeRight(1)(0)).take(0)
print (nameoffile)

내가 gettng 결과는

PythonRDD.scala의 RDD에서 PythonRDD [22] : 43

업데이트 : wholeTextFiles 대신 아래 코드를 작성 했지만 동일한 오류가 발생합니다. 또한 내 질문에 따라 내 파일의 이름을 얻고 싶으므로 textFile이 도움이되지 않는다고 말하고 싶습니다. 제안한 코드를 실행 해 보았지만 동일한 결과를 얻었습니다.

path = sc.textFile("file:///root/cd/")

print (path)
라훌 샤르마

입력 디렉토리에 작은 파일이 많으면 wholeTextFiles가 도움이 될 것 입니다. 여기에서 자세한 설명을 확인 하십시오 .

>>pairRDD = sc.wholeTextFiles('<path>') 
>>pairRDD.map(lambda x:x[0]).collect()  #print all file names

pairRDD 각 레코드는 절대 파일 경로로 키를 포함하고 전체 파일 내용으로 값을 포함합니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

Android 앱이 실행되는 동안 배치 파일을 사용하여 PC에서 adb 로그 가져 오기

분류에서Dev

Android에서 FTP에서 파일을 다운로드하는 동안 읽기 전용 파일 시스템 오류

분류에서Dev

Javascript 또는 Jquery를 사용하여 로컬 CSV 파일 자동 가져 오기

분류에서Dev

PhoneGap에서 파일을 업로드하는 동안 파일 이름과 확장자를 가져옵니다.

분류에서Dev

php 또는 javascript를 사용하여 폴더에서 페이지로 파일 이름 가져 오기

분류에서Dev

CSV 형식으로 파일을 내보내는 동안 "인덱스"를 사용하여 행 이름 쓰기

분류에서Dev

csv 파일 또는 텍스트 파일을 사용하여 웹 스크랩 데이터를 표 형식으로 가져 오는 방법 (Pandas 사용 안 함)

분류에서Dev

axios를 사용하여 로컬 JSON 파일에서 데이터 가져 오기 및 데이터 표시

분류에서Dev

값의 이름을 나타내는 상수를 사용하여 .json 파일에서 값 가져 오기

분류에서Dev

FREAD를 사용하여 CSV 파일을 R로 가져 오는 동안 특정 값으로 시작하는 행 건너 뛰기

분류에서Dev

C #에서 Excel 파일을 읽는 동안 ###### 값 가져 오기

분류에서Dev

파일 업로드를 사용하지 않고 asp.net JQuery에서 파일 이름을 가져오고 파일을 업로드하는 방법

분류에서Dev

Python을 사용하여로드 된 XML 파일에서 XML 파일 이름 가져 오기

분류에서Dev

PowerShell에서 파일 내용으로 파일 이름을 가져 오는 방법

분류에서Dev

iText를 사용하여 PDF 파일에서 JSON을 읽는 동안 오류가 발생했습니다.

분류에서Dev

게시 tar.gz 파일 HTTP 클라이언트를 사용하지만, 컬 명령으로 벌금을 작동하는 동안 오류가 발생

분류에서Dev

파일을 저장하는 동안 파일 이름에 대한 키 입력 바로 가기

분류에서Dev

read () 시스템 호출을 사용하여 파일을 읽는 동안 프로그램이 중단됨

분류에서Dev

작성기 DAG를 사용하여 GCP 버킷에서 재귀 적으로 파일 이름을 읽는 방법

분류에서Dev

로컬 시스템에서 "병렬"로 rsync를 실행하여 파일을 병렬로 가져 오는 방법은 무엇입니까?

분류에서Dev

파일 내용을 읽기 위해 Flutter 웹 (크롬)을 사용하여 시스템 디렉토리에서 파일 경로 가져 오기 예 : CSV 또는 텍스트 파일

분류에서Dev

mysql 덤프를 사용하여 mysql 데이터베이스를 백업하는 동안 0KB의 파일 크기 가져 오기

분류에서Dev

subprocess.call을 사용하여 pcap 파일을 읽는 동안 파일 이름이 너무 김 오류

분류에서Dev

파이썬을 사용하여 XML 파일에서 동적으로 데이터를 가져 오는 방법은 무엇입니까?

분류에서Dev

Javascript를 사용하여 JSON 파일에서 HTML로 데이터 가져 오기

분류에서Dev

Windows 8/10에서 파일 이름 바꾸기를 사용하여 파일 및 디렉토리를 자동 배치하는 최고의 언어 / 시스템?

분류에서Dev

여러 csv 파일을 읽고 R에서 각 csv 파일의 파일 이름 가져 오기

분류에서Dev

OpenGL : 동일한 깊이 텍스처에서 읽는 동안 깊이 첨부 파일을 사용하여 FBO로 렌더링하고 glDepthMask가 false입니다.

분류에서Dev

python netstat 명령을 사용하여 cmd에서 파일 프로세스 이름 가져 오기

Related 관련 기사

  1. 1

    Android 앱이 실행되는 동안 배치 파일을 사용하여 PC에서 adb 로그 가져 오기

  2. 2

    Android에서 FTP에서 파일을 다운로드하는 동안 읽기 전용 파일 시스템 오류

  3. 3

    Javascript 또는 Jquery를 사용하여 로컬 CSV 파일 자동 가져 오기

  4. 4

    PhoneGap에서 파일을 업로드하는 동안 파일 이름과 확장자를 가져옵니다.

  5. 5

    php 또는 javascript를 사용하여 폴더에서 페이지로 파일 이름 가져 오기

  6. 6

    CSV 형식으로 파일을 내보내는 동안 "인덱스"를 사용하여 행 이름 쓰기

  7. 7

    csv 파일 또는 텍스트 파일을 사용하여 웹 스크랩 데이터를 표 형식으로 가져 오는 방법 (Pandas 사용 안 함)

  8. 8

    axios를 사용하여 로컬 JSON 파일에서 데이터 가져 오기 및 데이터 표시

  9. 9

    값의 이름을 나타내는 상수를 사용하여 .json 파일에서 값 가져 오기

  10. 10

    FREAD를 사용하여 CSV 파일을 R로 가져 오는 동안 특정 값으로 시작하는 행 건너 뛰기

  11. 11

    C #에서 Excel 파일을 읽는 동안 ###### 값 가져 오기

  12. 12

    파일 업로드를 사용하지 않고 asp.net JQuery에서 파일 이름을 가져오고 파일을 업로드하는 방법

  13. 13

    Python을 사용하여로드 된 XML 파일에서 XML 파일 이름 가져 오기

  14. 14

    PowerShell에서 파일 내용으로 파일 이름을 가져 오는 방법

  15. 15

    iText를 사용하여 PDF 파일에서 JSON을 읽는 동안 오류가 발생했습니다.

  16. 16

    게시 tar.gz 파일 HTTP 클라이언트를 사용하지만, 컬 명령으로 벌금을 작동하는 동안 오류가 발생

  17. 17

    파일을 저장하는 동안 파일 이름에 대한 키 입력 바로 가기

  18. 18

    read () 시스템 호출을 사용하여 파일을 읽는 동안 프로그램이 중단됨

  19. 19

    작성기 DAG를 사용하여 GCP 버킷에서 재귀 적으로 파일 이름을 읽는 방법

  20. 20

    로컬 시스템에서 "병렬"로 rsync를 실행하여 파일을 병렬로 가져 오는 방법은 무엇입니까?

  21. 21

    파일 내용을 읽기 위해 Flutter 웹 (크롬)을 사용하여 시스템 디렉토리에서 파일 경로 가져 오기 예 : CSV 또는 텍스트 파일

  22. 22

    mysql 덤프를 사용하여 mysql 데이터베이스를 백업하는 동안 0KB의 파일 크기 가져 오기

  23. 23

    subprocess.call을 사용하여 pcap 파일을 읽는 동안 파일 이름이 너무 김 오류

  24. 24

    파이썬을 사용하여 XML 파일에서 동적으로 데이터를 가져 오는 방법은 무엇입니까?

  25. 25

    Javascript를 사용하여 JSON 파일에서 HTML로 데이터 가져 오기

  26. 26

    Windows 8/10에서 파일 이름 바꾸기를 사용하여 파일 및 디렉토리를 자동 배치하는 최고의 언어 / 시스템?

  27. 27

    여러 csv 파일을 읽고 R에서 각 csv 파일의 파일 이름 가져 오기

  28. 28

    OpenGL : 동일한 깊이 텍스처에서 읽는 동안 깊이 첨부 파일을 사용하여 FBO로 렌더링하고 glDepthMask가 false입니다.

  29. 29

    python netstat 명령을 사용하여 cmd에서 파일 프로세스 이름 가져 오기

뜨겁다태그

보관