Apache Spark가 런타임 환경 구성을로드하지 않음, 작업 제출 실패

오지 그릇

내 Apache Spark 독립 실행 형 클러스터는 갑자기 screen. (참고로 나는 화면을 제거하고 컴퓨터를 재부팅했습니다). 기본적으로 발생한 것은 애플리케이션 마스터가 환경 구성로드를 거부 spark-submit하여 결국 시간이 초과 될 때까지 내 정지 상태를 유지한다는 것입니다. AM 환경 페이지는 다음과 같습니다.

환경

Spark 작업을 제출하는 방법은 다음과 같습니다.

$SPARK_HOME/bin/spark-submit --class app.package.TrainNetSpark --master spark://master.cluster:7077 --deploy-mode client --driver-memory 28G --executor-memory 14G --num-executors 7 --executor-cores 8 --conf spark.driver.maxResultSize=20g --conf spark.executor.heartbeatInterval=10000000 --conf spark.network.timeout=50000000 path/to/my.jar

모든 슬레이브와 마스터 노드에서 리소스가 해제되었는지 확인할 수 있습니다. 갑자기 모든 것이 잘 돌아가는 것 같습니다.

16:57:08,010 ERROR ~ Application has been killed. Reason: All masters are unresponsive! Giving up.
16:57:08,095 ERROR ~ Error communicating with MapOutputTracker
java.lang.InterruptedException
    at java.util.concurrent.locks.AbstractQueuedSynchronizer.tryAcquireSharedNanos(AbstractQueuedSynchronizer.java:1325)
...
16:57:08,099 ERROR ~ Uncaught exception in thread appclient-registration-retry-thread
org.apache.spark.SparkException: Error communicating with MapOutputTracker
    at org.apache.spark.MapOutputTracker.askTracker(MapOutputTracker.scala:114)
    at org.apache.spark.MapOutputTracker.sendTracker(MapOutputTracker.scala:120)
...
16:57:08,103 ERROR ~ Uncaught exception in thread Thread[appclient-registration-retry-thread,5,main]
org.apache.spark.SparkException: Exiting due to error from cluster scheduler: All masters are unresponsive! Giving up.

spark-defaults.conf모습은 다음과 같습니다.

spark.master spark://master.cluster:7077
spark.driver.memory 30g
spark.driver.cores 4
spark.driver.maxResultSize 20g
spark.executor.extraLibraryPath /usr/lib

spark.driver.port 7001 
spark.fileserver.port 7002 
spark.broadcast.port 7003 
spark.replClassServer.port 7004 
spark.blockManager.port 7005 
spark.executor.port 7006

spark.broadcast.factory org.apache.spark.broadcast.HttpBroadcastFactory
spark.serializer org.apache.spark.serializer.KryoSerializer

신청서에서 아무것도 변경하지 않았 음을 확인할 수 있습니다. 유일한 차이점은 screen동작이 시작될 때 내부에서 작업을 실행하려고한다는 것 입니다. 이후 화면을 제거하고 마스터를 하드 다시 시작하고 작업자 데몬을 다시 시작했습니다.

핵심 문제는 애플리케이션 마스터가 런타임 정보를 성공적으로로드하지 못한다는 것입니다. 이 문제를 어떻게 해결할 수 있습니까? 감사!

최신 정보

문제를 (이상하게도) 내 spark-submit기능으로 좁혔습니다 . 마스터를 제외한 모든 매개 변수를 제거하면 애플리케이션이 예상대로 계속됩니다. 제출 명령에 어떤 문제가 있습니까?

오지 그릇

모든 환경 변수를 재설정하고 다음을 수행하는 문제를 해결할 수있었습니다.

나는 추가 SPARK_HOME, SPARK_MASTER_IP, SPARK_MASTER_PORT, 그리고 SPARK_CONF_DIR내에 bash_profile. 그런 다음 원래 spark-submit명령 의 모든 구성 변수 spark-defaults.conf. 마스터를 다시 시작했습니다. 마지막 spark-submit으로 다음과 같이 정리 사용했습니다 .

$SPARK_HOME/bin/spark-submit --class my.package.TrainNetSpark --master spark://master.cluster:7077 path/to/my.jar

로그 아웃했다가 다시 로그인했는데 다시 작동했습니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

Apache Spark가 실패한 작업을 다시 제출하지 않는 이유는 무엇입니까?

분류에서Dev

런타임 gc가 실제로 수행하는 작업과이 출력의 원인은 무엇입니까?

분류에서Dev

Snapd 프로그램의 핵심 런타임 제거가 작동하지 않음

분류에서Dev

Google Cloud Dataflow 작업자 Python 런타임 환경에 사전 설치된 패키지는 무엇인가요?

분류에서Dev

셸 유형의 러너가 작동하지 않음 : 작업 실패 (시스템 오류) : 환경 준비 :

분류에서Dev

재시도없이 Apache Spark 작업이 즉시 실패하고 maxFailures 설정이 작동하지 않음

분류에서Dev

Bazel 도구 모음 구성 파일에서 패키지에 대한 런타임 경로 가져 오기

분류에서Dev

런타임 scanf 함수의 가비지 값이 제대로 작동하지 않음

분류에서Dev

Apache Spark 작업 실패

분류에서Dev

AWS Step Functions 및 Fargate 작업 : 컨테이너 런타임 오류로 인해 파이프 라인이 실패하지 않음

분류에서Dev

PreRegistrationHandler가 작업 오류 코드에서 실패하지 않음

분류에서Dev

sbt-assembly로 포장 된 Spark 2.0.0 스트리밍 작업에 Scala 런타임 메서드가 없음

분류에서Dev

Ashx 경로가 작동하지 않음-Piranha CMS-리소스로드 실패

분류에서Dev

NGUI가 작동하지 않는 런타임 중에 UISprite 색조 색상 변경

분류에서Dev

DotVVM 런타임의 Panel 구성 요소에서 CssStyle 속성 변경이 작동하지 않음

분류에서Dev

Apache가 시작되지 않음, 주소가 이미 사용 중임 (실제로는 아님)

분류에서Dev

런타임에 Chromium 용 API 키 제공이 작동하지 않음

분류에서Dev

외부 작업이 실패해도 Airflow ExternalTaskSensor가 실패하지 않음

분류에서Dev

보안 삭제 실패 후 OCZ SSD가 작동하지 않음

분류에서Dev

환경 변수가 제대로 작동하지 않음

분류에서Dev

Scorpio Broker-docker-compose-aaio.yml에 설정된 환경 변수가 런타임에 선택되지 않음

분류에서Dev

런타임 코드가 컴파일 될 때마다 사용자 지정 작업을 실행하는 sbt

분류에서Dev

Docker가 오류 메시지 OCI 런타임 생성 실패와 함께 작동을 중지했습니다.

분류에서Dev

패키지가 필요할 때 런타임 경고 생성

분류에서Dev

복잡성이 런타임의 실제 증가와 일치하지 않습니까?

분류에서Dev

Safari가 jquery 제출 작업에서 CSS 규칙을 활성화하지 않음

분류에서Dev

AEM 6.2 응용 프로그램 페이지가 매우 높은로드 시간을 제공하고 작성자 환경이 응답하지 않음

분류에서Dev

Apache Spark : Spark 제출시 JAR 파일이 제공되지 않음

분류에서Dev

런타임에 "해결되지 않은 컴파일 문제"가 발생하는 대신 컴파일 오류에 실패합니다.

Related 관련 기사

  1. 1

    Apache Spark가 실패한 작업을 다시 제출하지 않는 이유는 무엇입니까?

  2. 2

    런타임 gc가 실제로 수행하는 작업과이 출력의 원인은 무엇입니까?

  3. 3

    Snapd 프로그램의 핵심 런타임 제거가 작동하지 않음

  4. 4

    Google Cloud Dataflow 작업자 Python 런타임 환경에 사전 설치된 패키지는 무엇인가요?

  5. 5

    셸 유형의 러너가 작동하지 않음 : 작업 실패 (시스템 오류) : 환경 준비 :

  6. 6

    재시도없이 Apache Spark 작업이 즉시 실패하고 maxFailures 설정이 작동하지 않음

  7. 7

    Bazel 도구 모음 구성 파일에서 패키지에 대한 런타임 경로 가져 오기

  8. 8

    런타임 scanf 함수의 가비지 값이 제대로 작동하지 않음

  9. 9

    Apache Spark 작업 실패

  10. 10

    AWS Step Functions 및 Fargate 작업 : 컨테이너 런타임 오류로 인해 파이프 라인이 실패하지 않음

  11. 11

    PreRegistrationHandler가 작업 오류 코드에서 실패하지 않음

  12. 12

    sbt-assembly로 포장 된 Spark 2.0.0 스트리밍 작업에 Scala 런타임 메서드가 없음

  13. 13

    Ashx 경로가 작동하지 않음-Piranha CMS-리소스로드 실패

  14. 14

    NGUI가 작동하지 않는 런타임 중에 UISprite 색조 색상 변경

  15. 15

    DotVVM 런타임의 Panel 구성 요소에서 CssStyle 속성 변경이 작동하지 않음

  16. 16

    Apache가 시작되지 않음, 주소가 이미 사용 중임 (실제로는 아님)

  17. 17

    런타임에 Chromium 용 API 키 제공이 작동하지 않음

  18. 18

    외부 작업이 실패해도 Airflow ExternalTaskSensor가 실패하지 않음

  19. 19

    보안 삭제 실패 후 OCZ SSD가 작동하지 않음

  20. 20

    환경 변수가 제대로 작동하지 않음

  21. 21

    Scorpio Broker-docker-compose-aaio.yml에 설정된 환경 변수가 런타임에 선택되지 않음

  22. 22

    런타임 코드가 컴파일 될 때마다 사용자 지정 작업을 실행하는 sbt

  23. 23

    Docker가 오류 메시지 OCI 런타임 생성 실패와 함께 작동을 중지했습니다.

  24. 24

    패키지가 필요할 때 런타임 경고 생성

  25. 25

    복잡성이 런타임의 실제 증가와 일치하지 않습니까?

  26. 26

    Safari가 jquery 제출 작업에서 CSS 규칙을 활성화하지 않음

  27. 27

    AEM 6.2 응용 프로그램 페이지가 매우 높은로드 시간을 제공하고 작성자 환경이 응답하지 않음

  28. 28

    Apache Spark : Spark 제출시 JAR 파일이 제공되지 않음

  29. 29

    런타임에 "해결되지 않은 컴파일 문제"가 발생하는 대신 컴파일 오류에 실패합니다.

뜨겁다태그

보관