Java의 특정 필드 값을 기반으로 Spark RDD를 필터링하는 방법은 무엇입니까?

debugcn 에 게시 Dev

사용자 3056186

Java로 Spark 작업을 만들고 있습니다. 다음은 내 코드입니다.

CSV 파일에서 레코드를 필터링하려고합니다. 헤더 OID에 COUNTRY_NAME,, ...... 필드가 있습니다 .

을 기준으로 필터링하는 대신을 기준으로 필터링하는 s.contains("CANADA")것처럼 좀 더 구체적으로 지정하고 싶습니다 COUNTRY_NAME.equals("CANADA"). 어떻게 할 수 있는지에 대한 생각이 있습니까?

public static void main(String[] args) {
    String gaimFile = "hdfs://xx.yy.zz.com/sandbox/data/acc/mydata"; 

    SparkConf conf = new SparkConf().setAppName("Filter App");
    JavaSparkContext sc = new JavaSparkContext(conf);
    try{
        JavaRDD<String> gaimData = sc.textFile(gaimFile);

        JavaRDD<String> canadaOnly = gaimData.filter(new Function<String, Boolean>() {

            private static final long serialVersionUID = -4438640257249553509L;

            public Boolean call(String s) { 
               // My file id csv with header OID, COUNTRY_NAME, .....
               // here instead of just saying s.contains 
               // i would like to be more specific and say 
               // if COUNTRY_NAME.eqauls("CANADA)
               return s.contains("CANADA"); 
            }
        }); 

    }
    catch(Exception e){
        System.out.println("ERROR: G9 MatchUp Failed");
    }
    finally{
        sc.close();
    }
}

저스틴 피 호니

먼저 값을 사용자 정의 클래스에 매핑해야합니다.

rdd.map(lines=>ConvertToCountry(line))
   .filter(country=>country == "CANADA")

class Country{
  ...ctor that takes an array and fills properties...
  ...properties for each field from the csv...
}

ConvertToCountry(line: String){
  return new Country(line.split(','))
}

위의 내용은 Scala와 의사 코드의 조합이지만 요점을 이해해야합니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-4

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Java의 특정 필드 값을 기반으로 Spark RDD를 필터링하는 방법은 무엇입니까?

Java의 특정 필드 값을 기반으로 Spark RDD를 필터링하는 방법은 무엇입니까?

ElasticSearch, Node J의 특정 문자열을 포함하는 필드로 데이터를 필터링하는 방법은 무엇입니까?

페이지 매김을 위해 테이블 필드의 데이터를 기반으로 특정 행을 계산하는 방법은 무엇입니까?

Django-여러 필드를 기반으로 데이터베이스의 특정 행을 편집하는 방법은 무엇입니까?

정적 필터링 값을 기반으로 재 선택 redux를 사용하여 필터링 된 목록을 생성하는 방법은 무엇입니까?

formik의 다른 필드를 기반으로 한 필드의 입력 값을 설정하는 방법은 무엇입니까?

일부 필드를 기반으로 객체 배열을 필터링하는 방법은 무엇입니까?

다른 필드의 내용을 기반으로 파일의 특정 필드를 바꾸는 방법은 무엇입니까?

다른 필드의 내용을 기반으로 파일의 특정 필드를 바꾸는 방법은 무엇입니까?

벡터 필드를 특정 반경의 원으로 제한하는 방법은 무엇입니까?

ElasticSearch 결과를 기준으로 필드 값을 필터링하는 방법은 무엇입니까?

각도의 html 페이지에서 특수 문자를 기반으로 파일 이름을 필터링하는 방법은 무엇입니까?

Python으로 열의 특정 문자열을 필터링하는 방법은 무엇입니까?

dplyr의 값을 기반으로 열을 필터링하는 방법은 무엇입니까?

값을 기준으로 레코드 키를 필터링하는 방법은 무엇입니까?

Spark, Scala : 키를 기준으로 RDD 쌍의 값을 빼는 방법은 무엇입니까?

목록의 이전 값을 기반으로 Haskell의 목록 요소를 필터링하는 방법은 무엇입니까?

SQLAlchemy를 사용하여 하나의 열을 정의 할 수없는 두 개의 열을 기준으로 필터링하는 방법은 무엇입니까?

dc.js의 모든 차원에서 사용자 정의 값으로 레코드를 필터링하는 방법은 무엇입니까?

LINQ를 사용하여 목록에서 특정 기준의 항목을 하나만 제외하고 모두 필터링하는 방법은 무엇입니까?

특정 언어로 공개 게시물을 필터링하거나 언어 필드를 가져 오는 방법은 무엇입니까?

Scala의 개체 필드를 기반으로 List 개체를 정렬하는 방법은 무엇입니까?

특정 조건으로 Pandas 데이터 프레임의 열 값을 필터링하는 방법은 무엇입니까?

Java로 Spark 데이터 세트의 선택적 필드를 인코딩하는 방법은 무엇입니까?

AngularJS의 범위를 기반으로 데이터를 필터링하는 방법은 무엇입니까?

행의 필드 값을 기반으로 값이있는 열을 추가하는 방법은 무엇입니까?

csv.DictReader를 사용하여 특정 값을 가진 필드가있는 행만 필터링하고 인쇄하는 방법은 무엇입니까?

StateListDrawable의 특정 드로어 블에 색상 필터를 적용하는 방법은 무엇입니까?

Pandas의 목록을 기반으로 DataFrame의 항목을 필터링하는 방법은 무엇입니까?

동일한 행에있는 다른 필드의 내용을 기반으로 행을 반복하고 특정 필드를 쿼리하는 방법은 무엇입니까?