SataFrame에서 누락 된 값을 채우는 방법은 무엇입니까?

user299791

mysql db를 쿼리하고 해당 데이터 프레임을 구축 한 후 다음과 같이 남았습니다.

mydata.show

+--+------+------+------+------+------+------+
|id| sport|  var1|  var2|  var3|  var4|  var5|
+--+------+------+------+------+------+------+
| 1|soccer|330234|      |      |      |      |
| 2|soccer|  null|  null|  null|  null|  null|
| 3|soccer|330101|      |      |      |      |
| 4|soccer|  null|  null|  null|  null|  null|
| 5|soccer|  null|  null|  null|  null|  null|
| 6|soccer|  null|  null|  null|  null|  null|
| 7|soccer|  null|  null|  null|  null|  null|
| 8|soccer|330024|330401|      |      |      |
| 9|soccer|330055|330106|      |      |      |
|10|soccer|  null|  null|  null|  null|  null|
|11|soccer|390027|      |      |      |      |
|12|soccer|  null|  null|  null|  null|  null|
|13|soccer|330101|      |      |      |      |
|14|soccer|330059|      |      |      |      |
|15|soccer|  null|  null|  null|  null|  null|
|16|soccer|140242|140281|      |      |      |
|17|soccer|330214|      |      |      |      |
|18|soccer|      |      |      |      |      |
|19|soccer|330055|330196|      |      |      |
|20|soccer|210022|      |      |      |      |
+--+------+------+------+------+------+------+

모든 var 열은 다음과 같습니다.

string (nullable = true)

따라서 모든 빈 행을 "null"로 변경하여 "null"이있는 빈 셀과 셀을 RDD에 대한 데이터 프레임을 떠나지 않고 동일하게 처리 할 수 ​​있도록하고 싶습니다.

차크 조 하르

한 가지 옵션은 반대로하는 것입니다. 즉, null을 빈 값으로 대체합니다 (개인적으로 null을 싫어합니다 ...).이 경우 coalesce함수를 사용할 수 있습니다 .

import org.apache.spark.sql.functions._
val result = input.withColumn("myCol", coalesce(input("myCol"), lit("")))

여러 열에 대해 수행하려면 다음을 수행하십시오.

val cols = Seq("var1", "var2", "var3", "var4", "var5")
val result = cols.foldLeft(input) { case (df, colName) => df.withColumn(colName, coalesce(df(colName), lit(""))) }

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

누락 된 NAN을 채우는 방법은 무엇입니까?

분류에서Dev

Pandas : 대규모 데이터 세트에서 누락 된 값을 채우는 방법은 무엇입니까?

분류에서Dev

DataFrame에서 누락 된 행을 생성 / 채우는 방법은 무엇입니까?

분류에서Dev

SQl Server에서 누락 된 행으로 인해 결과 집합을 채우는 방법은 무엇입니까?

분류에서Dev

R에서 맵의 흰색 / 누락 된 부분을 채우는 방법은 무엇입니까?

분류에서Dev

사전 훈련 된 모델을 사용하여 누락 된 값을 채우는 방법은 무엇입니까?

분류에서Dev

그룹화 된 평균을 기준으로 누락 된 값을 채우는 방법은 무엇입니까?

분류에서Dev

누락 된 값을 전날 값으로 채우는 방법은 무엇입니까? (dplyr -spread 사용)

분류에서Dev

Dymola에서 누락 된 방정식을 찾는 방법은 무엇입니까?

분류에서Dev

열의 패턴에 따라 Pandas 데이터 프레임에서 누락 된 값을 채우는 방법은 무엇입니까?

분류에서Dev

BigQuery에서 선형 보간으로 불규칙적으로 누락 된 값을 채우는 방법은 무엇입니까?

분류에서Dev

Pandas : 다중 인덱스 시계열에서 누락 된 기간 / 날짜 / 시간 값을 채우는 방법은 무엇입니까?

분류에서Dev

Pandas DataFrame에서 누락 된 시간 값을 채우는 방법

분류에서Dev

R에서 data.frame의 누락 값을 채우는 방법은 무엇입니까?

분류에서Dev

파이썬에서 누락 된 값과 누락 된 값의 개수가있는 열 이름을 인쇄하는 방법은 무엇입니까?

분류에서Dev

pandas에서 누락 된 값을 평균 ffill () 및 bfill ()으로 바꾸는 방법은 무엇입니까?

분류에서Dev

R-Dplyr Summarize 함수에서 누락 된 값과 Nan을 제거하는 방법은 무엇입니까?

분류에서Dev

R의 MCA (다중 대응 분석)에서 누락 된 값을 제외하는 방법은 무엇입니까?

분류에서Dev

R에서 누락 된 값을 평균으로 대체하여 처리하는 방법은 무엇입니까?

분류에서Dev

ggplot2의 범례에서 누락 된 값을 표시하는 방법은 무엇입니까?

분류에서Dev

누락 된 날짜를 데이터 프레임에 추가하고 Python에서 다른 해당 열을 채우는 방법은 무엇입니까?

분류에서Dev

파이썬 목록에 누락 된 값을 추가하는 방법은 무엇입니까?

분류에서Dev

R을 사용하여 일부 값이 누락 된 고유 식별자에 누락 된 0을 추가하는 방법은 무엇입니까?

분류에서Dev

Python을 사용하여 현재 값을 기반으로 누락 된 값을 채우는 방법은 무엇입니까?

분류에서Dev

Bigquery 테이블 범위 쿼리에서 누락 된 열을 '무시'하는 방법은 무엇입니까?

분류에서Dev

R에서 여러 열로 누락 된 값을 채우는 방법

분류에서Dev

dc.js에서 누락 된 값 처리를 정의하는 방법은 무엇입니까?

분류에서Dev

다른 데이터 프레임에서 값이 누락 된 경우 한 데이터 프레임에서 행을 삭제하는 방법은 무엇입니까?

분류에서Dev

다른 배열에있는 누락 된 값이있는 경우 배열에 NaN을 삽입하는 방법은 무엇입니까?

Related 관련 기사

  1. 1

    누락 된 NAN을 채우는 방법은 무엇입니까?

  2. 2

    Pandas : 대규모 데이터 세트에서 누락 된 값을 채우는 방법은 무엇입니까?

  3. 3

    DataFrame에서 누락 된 행을 생성 / 채우는 방법은 무엇입니까?

  4. 4

    SQl Server에서 누락 된 행으로 인해 결과 집합을 채우는 방법은 무엇입니까?

  5. 5

    R에서 맵의 흰색 / 누락 된 부분을 채우는 방법은 무엇입니까?

  6. 6

    사전 훈련 된 모델을 사용하여 누락 된 값을 채우는 방법은 무엇입니까?

  7. 7

    그룹화 된 평균을 기준으로 누락 된 값을 채우는 방법은 무엇입니까?

  8. 8

    누락 된 값을 전날 값으로 채우는 방법은 무엇입니까? (dplyr -spread 사용)

  9. 9

    Dymola에서 누락 된 방정식을 찾는 방법은 무엇입니까?

  10. 10

    열의 패턴에 따라 Pandas 데이터 프레임에서 누락 된 값을 채우는 방법은 무엇입니까?

  11. 11

    BigQuery에서 선형 보간으로 불규칙적으로 누락 된 값을 채우는 방법은 무엇입니까?

  12. 12

    Pandas : 다중 인덱스 시계열에서 누락 된 기간 / 날짜 / 시간 값을 채우는 방법은 무엇입니까?

  13. 13

    Pandas DataFrame에서 누락 된 시간 값을 채우는 방법

  14. 14

    R에서 data.frame의 누락 값을 채우는 방법은 무엇입니까?

  15. 15

    파이썬에서 누락 된 값과 누락 된 값의 개수가있는 열 이름을 인쇄하는 방법은 무엇입니까?

  16. 16

    pandas에서 누락 된 값을 평균 ffill () 및 bfill ()으로 바꾸는 방법은 무엇입니까?

  17. 17

    R-Dplyr Summarize 함수에서 누락 된 값과 Nan을 제거하는 방법은 무엇입니까?

  18. 18

    R의 MCA (다중 대응 분석)에서 누락 된 값을 제외하는 방법은 무엇입니까?

  19. 19

    R에서 누락 된 값을 평균으로 대체하여 처리하는 방법은 무엇입니까?

  20. 20

    ggplot2의 범례에서 누락 된 값을 표시하는 방법은 무엇입니까?

  21. 21

    누락 된 날짜를 데이터 프레임에 추가하고 Python에서 다른 해당 열을 채우는 방법은 무엇입니까?

  22. 22

    파이썬 목록에 누락 된 값을 추가하는 방법은 무엇입니까?

  23. 23

    R을 사용하여 일부 값이 누락 된 고유 식별자에 누락 된 0을 추가하는 방법은 무엇입니까?

  24. 24

    Python을 사용하여 현재 값을 기반으로 누락 된 값을 채우는 방법은 무엇입니까?

  25. 25

    Bigquery 테이블 범위 쿼리에서 누락 된 열을 '무시'하는 방법은 무엇입니까?

  26. 26

    R에서 여러 열로 누락 된 값을 채우는 방법

  27. 27

    dc.js에서 누락 된 값 처리를 정의하는 방법은 무엇입니까?

  28. 28

    다른 데이터 프레임에서 값이 누락 된 경우 한 데이터 프레임에서 행을 삭제하는 방법은 무엇입니까?

  29. 29

    다른 배열에있는 누락 된 값이있는 경우 배열에 NaN을 삽입하는 방법은 무엇입니까?

뜨겁다태그

보관