Apache Spark 및 Drill AWS 클러스터에서 AWS 클러스터 인스턴스 유형을 최적화하는 방법은 무엇입니까?

debugcn 에 게시 Dev

Elcomendante

드릴로 s3 버킷을 읽고 추가 분석을 위해 스파크 데이터 프레임으로 읽기 위해 마루가있는 s3에 다시 쓰고 있습니다. AWS emr에 최소 2 개의 코어 머신이 있어야합니다.

마스터 및 코어에 i mirco 인스턴스를 사용하면 성능에 영향을 줍니까?

나는 hdfs를 그렇게 사용하지 않으므로 돈을 절약하기 위해 mirco 인스턴스를 만들려고 생각하고 있습니다.

모든 계산은 어쨌든 작업 노드로서 R3.xlarge 스팟 인스턴스에 의해 메모리에서 수행됩니다. 마지막으로 스파크는 각 시스템에서 여러 코어를 사용합니까? 또는 작업 노드 R3.xlarge를 4.1 버전으로 시작하여 크기를 자동으로 조정할 수 있도록하는 것이 더 낫습니까?

엘리 아사

Spark에 얼마나 익숙한 지 모르겠지만 핵심 사용에 대해 알아야 할 몇 가지 사항이 있습니다.

클러스터 모드에서만 드라이버 프로세스에 사용할 코어 수를 설정할 수 있습니다. 그건 1 기본적으로.
각 실행기에서 사용할 코어 수를 설정할 수도 있습니다. YARN 및 독립형 모드 전용입니다. YARN 모드에서는 1이고 독립 실행 형 모드에서는 작업자에서 사용 가능한 모든 코어입니다. 독립 실행 형 모드에서이 매개 변수를 설정하면 해당 작업자에 충분한 코어가있는 경우 애플리케이션이 동일한 작업자에서 여러 실행기를 실행할 수 있습니다. 그렇지 않으면 애플리케이션 당 하나의 실행 프로그램 만 각 작업자에서 실행됩니다.

이제 두 가지 질문에 모두 답하십시오.

마스터 및 코어에 i 마이크로 인스턴스를 사용하면 성능에 영향을 줍니까?

예, 드라이버는 작업을 예약하고 때때로 데이터를 수집하기 위해 최소한의 리소스가 필요합니다. 성능면에서 AWS에서 Ganglia를 사용하여 수행 할 수있는 사용 사례에 따라 사용 사례에 따라 벤치마킹해야합니다.

Spark는 각 시스템에서 여러 코어를 사용합니까?

예 Spark는 각 컴퓨터에서 여러 코어를 사용합니다.

당신은 또한 읽을 수있는 이 관련된 어떤 인스턴스 유형이 스파크에 대한 AWS EMR 클러스터 바람직하다 .

Spark의 지원은 AWS에서 거의 새로운 기능이지만 일반적으로 다른 모든 Spark 클러스터 설정과 비슷합니다.

Spark 공식 설명서 안내서와 함께 AWS EMR 개발자 안내서-EMR 인스턴스 계획 장 을 읽어 보는 것이 좋습니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-5

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사