드릴로 s3 버킷을 읽고 추가 분석을 위해 스파크 데이터 프레임으로 읽기 위해 마루가있는 s3에 다시 쓰고 있습니다. AWS emr에 최소 2 개의 코어 머신이 있어야합니다.
마스터 및 코어에 i mirco 인스턴스를 사용하면 성능에 영향을 줍니까?
나는 hdfs를 그렇게 사용하지 않으므로 돈을 절약하기 위해 mirco 인스턴스를 만들려고 생각하고 있습니다.
모든 계산은 어쨌든 작업 노드로서 R3.xlarge 스팟 인스턴스에 의해 메모리에서 수행됩니다. 마지막으로 스파크는 각 시스템에서 여러 코어를 사용합니까? 또는 작업 노드 R3.xlarge를 4.1 버전으로 시작하여 크기를 자동으로 조정할 수 있도록하는 것이 더 낫습니까?
Spark에 얼마나 익숙한 지 모르겠지만 핵심 사용에 대해 알아야 할 몇 가지 사항이 있습니다.
이제 두 가지 질문에 모두 답하십시오.
마스터 및 코어에 i 마이크로 인스턴스를 사용하면 성능에 영향을 줍니까?
Spark는 각 시스템에서 여러 코어를 사용합니까?
당신은 또한 읽을 수있는 이 관련된 어떤 인스턴스 유형이 스파크에 대한 AWS EMR 클러스터 바람직하다 .
Spark의 지원은 AWS에서 거의 새로운 기능이지만 일반적으로 다른 모든 Spark 클러스터 설정과 비슷합니다.
Spark 공식 설명서 안내서와 함께 AWS EMR 개발자 안내서-EMR 인스턴스 계획 장 을 읽어 보는 것이 좋습니다.
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다