Spark에서 그룹당 누락 된 행을 추가하는 방법

debugcn 에 게시 Dev

아민

입력 데이터 세트는 다음과 같습니다.

org| id |step| value
1  |  1 | 1  | 12  
1  |  1 | 2  | 13 
1  |  1 | 3  | 14 
1  |  1 | 4  | 15   
1  |  2 | 1  | 16  
1  |  2 | 2  | 17 
2  |  1 | 1  | 1  
2  |  1 | 2  | 2

출력을 위해 나는 누락 된 추가 할 step당들 org에 예를 들어 그룹 id == 2의org == 1

org| id |step| value
1  |  1 | 1  | 12  
1  |  1 | 2  | 13 
1  |  1 | 3  | 14 
1  |  1 | 4  | 15   
1  |  2 | 1  | 16  
1  |  2 | 2  | 17 
1  |  2 | 3  | null 
1  |  2 | 4  | null   
2  |  1 | 1  | 1  
2  |  1 | 2  | 2

나는 이것을 시도했지만 작동하지 않습니다.

r = df.select("org", "step").distinct() 
df.join(r, ["org", "step"], 'right_outer')

Kasptom

val l = df.select("org", "step");
val r = df.select("org", "id");
val right = l.join(r, "org");

val result = df.join(right, Seq("org", "id", "step"), "right_outer").distinct().orderBy("org", "id", "step");

result.show

제공 :

+---+---+----+-----+                                                            
|org| id|step|value|
+---+---+----+-----+
|  1|  1|   1|   12|
|  1|  1|   2|   13|
|  1|  1|   3|   14|
|  1|  1|   4|   15|
|  1|  2|   1|   16|
|  1|  2|   2|   17|
|  1|  2|   3| null|
|  1|  2|   4| null|
|  2|  1|   1|    1|
|  2|  1|   2|    2|
+---+---+----+-----+

보너스 : 내용을 orgs반영하는 테이블 ( )에 대한 SQL 쿼리df

select distinct o_right."org", o_right."id", o_right."step", o_left."value"
from orgs as o_left
right outer join (
        select o_in_left."org", o_in_right."id", o_in_left."step"
        from orgs as o_in_right
        join (select "org", "step" from orgs) as o_in_left
        on o_in_right."org" = o_in_left."org"
        order by "org", "id", "step"
    ) as o_right
on o_left."org" = o_right."org"
    and o_left."step" = o_right."step"
    and o_left."id" = o_right."id"
order by "org", "id", "step"

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-1

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Spark에서 그룹당 누락 된 행을 추가하는 방법

Spark에서 그룹당 누락 된 행을 추가하는 방법

그룹 내에 누락 된 행 추가

Scala Spark에서 그룹의 각 값을 해당 그룹의 행 수로 그룹화하고 나누는 방법

그룹화 수준이 누락 된 R에서 상자 그림을 수행하는 방법

COPY 명령에서 파일의 누락 된 값을 추가하는 방법

Python에서 panda 데이터 프레임에 누락 된 시계열 데이터 행을 추가하는 방법

POSTGRESQL에서 시간별로 그룹화하고 누락 된 시간을 0으로 사용하는 방법

GAE 대시 보드의 값을 누락 된 필드에 추가하는 방법

R에서 관찰이없는 누락 된 그룹을 채우는 방법이 있습니까?

Pandas에서 누락 된 날짜를 추가하는 방법

그룹별로 범위에서 누락 된 날짜를 채우는 방법

누락 된 글꼴을 다시 추가하는 방법

누락 된 날짜를 데이터 프레임에 추가하고 Python에서 다른 해당 열을 채우는 방법은 무엇입니까?

객체 배열에서 누락 된 값을 확인하고 특수 문자로 누락 된 값을 추가하는 방법

typescript에서 누락 된 유형을 수정하는 방법

파이썬에서 누락 된 줄을 인쇄하는 방법?

여러 조인에서 누락 된 행을 찾는 효율적인 방법

날짜가 누락되지 않도록 Pandas에서 누락 된 열을 전달하는 방법

데이터 프레임에서 누락 된 경우 열을 추가하는 깔끔한 방법

mysql에서 새 그룹으로 그룹화 된 행을 추가하는 방법은 무엇입니까?

누락 된 행렬에 범례를 표시하는 방법?

R을 사용하여 일부 값이 누락 된 고유 식별자에 누락 된 0을 추가하는 방법은 무엇입니까?

아카이브에서 누락 된 파일을 찾는 방법

Pandas DataFrame에서 누락 된 시간 값을 채우는 방법

dplyr을 사용하여 한 그룹에서 누락 된 수준을 요약 테이블에 추가

LintFix를 구현하여 Android의 클래스 정의에 누락 된 주석을 추가하는 방법

Pandas 데이터 프레임에서 누락 된 인덱스에 대한 새 행을 추가하는 방법은 무엇입니까?

라인 플롯을 그리고 R에서 누락 된 값을 무시하는 방법

파이썬 목록에 누락 된 값을 추가하는 방법은 무엇입니까?

누락 된 날짜에 날짜와 월을 추가하는 방법은 무엇입니까?