Spark에서 그룹당 누락 된 행을 추가하는 방법

아민

입력 데이터 세트는 다음과 같습니다.

org| id |step| value
1  |  1 | 1  | 12  
1  |  1 | 2  | 13 
1  |  1 | 3  | 14 
1  |  1 | 4  | 15   
1  |  2 | 1  | 16  
1  |  2 | 2  | 17 
2  |  1 | 1  | 1  
2  |  1 | 2  | 2 

출력을 위해 나는 누락 된 추가 할 step당들 org에 예를 들어 그룹 id == 2org == 1

org| id |step| value
1  |  1 | 1  | 12  
1  |  1 | 2  | 13 
1  |  1 | 3  | 14 
1  |  1 | 4  | 15   
1  |  2 | 1  | 16  
1  |  2 | 2  | 17 
1  |  2 | 3  | null 
1  |  2 | 4  | null   
2  |  1 | 1  | 1  
2  |  1 | 2  | 2 

나는 이것을 시도했지만 작동하지 않습니다.

r = df.select("org", "step").distinct() 
df.join(r, ["org", "step"], 'right_outer') 
Kasptom
val l = df.select("org", "step");
val r = df.select("org", "id");
val right = l.join(r, "org");

val result = df.join(right, Seq("org", "id", "step"), "right_outer").distinct().orderBy("org", "id", "step");

result.show

제공 :

+---+---+----+-----+                                                            
|org| id|step|value|
+---+---+----+-----+
|  1|  1|   1|   12|
|  1|  1|   2|   13|
|  1|  1|   3|   14|
|  1|  1|   4|   15|
|  1|  2|   1|   16|
|  1|  2|   2|   17|
|  1|  2|   3| null|
|  1|  2|   4| null|
|  2|  1|   1|    1|
|  2|  1|   2|    2|
+---+---+----+-----+

보너스 : 내용을 orgs반영하는 테이블 ( )에 대한 SQL 쿼리df

select distinct o_right."org", o_right."id", o_right."step", o_left."value"
from orgs as o_left
right outer join (
        select o_in_left."org", o_in_right."id", o_in_left."step"
        from orgs as o_in_right
        join (select "org", "step" from orgs) as o_in_left
        on o_in_right."org" = o_in_left."org"
        order by "org", "id", "step"
    ) as o_right
on o_left."org" = o_right."org"
    and o_left."step" = o_right."step"
    and o_left."id" = o_right."id"
order by "org", "id", "step"

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

그룹 내에 누락 된 행 추가

분류에서Dev

Scala Spark에서 그룹의 각 값을 해당 그룹의 행 수로 그룹화하고 나누는 방법

분류에서Dev

그룹화 수준이 누락 된 R에서 상자 그림을 수행하는 방법

분류에서Dev

COPY 명령에서 파일의 누락 된 값을 추가하는 방법

분류에서Dev

Python에서 panda 데이터 프레임에 누락 된 시계열 데이터 행을 추가하는 방법

분류에서Dev

POSTGRESQL에서 시간별로 그룹화하고 누락 된 시간을 0으로 사용하는 방법

분류에서Dev

GAE 대시 보드의 값을 누락 된 필드에 추가하는 방법

분류에서Dev

R에서 관찰이없는 누락 된 그룹을 채우는 방법이 있습니까?

분류에서Dev

Pandas에서 누락 된 날짜를 추가하는 방법

분류에서Dev

그룹별로 범위에서 누락 된 날짜를 채우는 방법

분류에서Dev

누락 된 글꼴을 다시 추가하는 방법

분류에서Dev

누락 된 날짜를 데이터 프레임에 추가하고 Python에서 다른 해당 열을 채우는 방법은 무엇입니까?

분류에서Dev

객체 배열에서 누락 된 값을 확인하고 특수 문자로 누락 된 값을 추가하는 방법

분류에서Dev

typescript에서 누락 된 유형을 수정하는 방법

분류에서Dev

파이썬에서 누락 된 줄을 인쇄하는 방법?

분류에서Dev

여러 조인에서 누락 된 행을 찾는 효율적인 방법

분류에서Dev

날짜가 누락되지 않도록 Pandas에서 누락 된 열을 전달하는 방법

분류에서Dev

데이터 프레임에서 누락 된 경우 열을 추가하는 깔끔한 방법

분류에서Dev

mysql에서 새 그룹으로 그룹화 된 행을 추가하는 방법은 무엇입니까?

분류에서Dev

누락 된 행렬에 범례를 표시하는 방법?

분류에서Dev

R을 사용하여 일부 값이 누락 된 고유 식별자에 누락 된 0을 추가하는 방법은 무엇입니까?

분류에서Dev

아카이브에서 누락 된 파일을 찾는 방법

분류에서Dev

Pandas DataFrame에서 누락 된 시간 값을 채우는 방법

분류에서Dev

dplyr을 사용하여 한 그룹에서 누락 된 수준을 요약 테이블에 추가

분류에서Dev

LintFix를 구현하여 Android의 클래스 정의에 누락 된 주석을 추가하는 방법

분류에서Dev

Pandas 데이터 프레임에서 누락 된 인덱스에 대한 새 행을 추가하는 방법은 무엇입니까?

분류에서Dev

라인 플롯을 그리고 R에서 누락 된 값을 무시하는 방법

분류에서Dev

파이썬 목록에 누락 된 값을 추가하는 방법은 무엇입니까?

분류에서Dev

누락 된 날짜에 날짜와 월을 추가하는 방법은 무엇입니까?

Related 관련 기사

  1. 1

    그룹 내에 누락 된 행 추가

  2. 2

    Scala Spark에서 그룹의 각 값을 해당 그룹의 행 수로 그룹화하고 나누는 방법

  3. 3

    그룹화 수준이 누락 된 R에서 상자 그림을 수행하는 방법

  4. 4

    COPY 명령에서 파일의 누락 된 값을 추가하는 방법

  5. 5

    Python에서 panda 데이터 프레임에 누락 된 시계열 데이터 행을 추가하는 방법

  6. 6

    POSTGRESQL에서 시간별로 그룹화하고 누락 된 시간을 0으로 사용하는 방법

  7. 7

    GAE 대시 보드의 값을 누락 된 필드에 추가하는 방법

  8. 8

    R에서 관찰이없는 누락 된 그룹을 채우는 방법이 있습니까?

  9. 9

    Pandas에서 누락 된 날짜를 추가하는 방법

  10. 10

    그룹별로 범위에서 누락 된 날짜를 채우는 방법

  11. 11

    누락 된 글꼴을 다시 추가하는 방법

  12. 12

    누락 된 날짜를 데이터 프레임에 추가하고 Python에서 다른 해당 열을 채우는 방법은 무엇입니까?

  13. 13

    객체 배열에서 누락 된 값을 확인하고 특수 문자로 누락 된 값을 추가하는 방법

  14. 14

    typescript에서 누락 된 유형을 수정하는 방법

  15. 15

    파이썬에서 누락 된 줄을 인쇄하는 방법?

  16. 16

    여러 조인에서 누락 된 행을 찾는 효율적인 방법

  17. 17

    날짜가 누락되지 않도록 Pandas에서 누락 된 열을 전달하는 방법

  18. 18

    데이터 프레임에서 누락 된 경우 열을 추가하는 깔끔한 방법

  19. 19

    mysql에서 새 그룹으로 그룹화 된 행을 추가하는 방법은 무엇입니까?

  20. 20

    누락 된 행렬에 범례를 표시하는 방법?

  21. 21

    R을 사용하여 일부 값이 누락 된 고유 식별자에 누락 된 0을 추가하는 방법은 무엇입니까?

  22. 22

    아카이브에서 누락 된 파일을 찾는 방법

  23. 23

    Pandas DataFrame에서 누락 된 시간 값을 채우는 방법

  24. 24

    dplyr을 사용하여 한 그룹에서 누락 된 수준을 요약 테이블에 추가

  25. 25

    LintFix를 구현하여 Android의 클래스 정의에 누락 된 주석을 추가하는 방법

  26. 26

    Pandas 데이터 프레임에서 누락 된 인덱스에 대한 새 행을 추가하는 방법은 무엇입니까?

  27. 27

    라인 플롯을 그리고 R에서 누락 된 값을 무시하는 방법

  28. 28

    파이썬 목록에 누락 된 값을 추가하는 방법은 무엇입니까?

  29. 29

    누락 된 날짜에 날짜와 월을 추가하는 방법은 무엇입니까?

뜨겁다태그

보관