SataFrame에서 누락 된 값을 채우는 방법은 무엇입니까?

debugcn 에 게시 Dev

user299791

mysql db를 쿼리하고 해당 데이터 프레임을 구축 한 후 다음과 같이 남았습니다.

mydata.show

+--+------+------+------+------+------+------+
|id| sport|  var1|  var2|  var3|  var4|  var5|
+--+------+------+------+------+------+------+
| 1|soccer|330234|      |      |      |      |
| 2|soccer|  null|  null|  null|  null|  null|
| 3|soccer|330101|      |      |      |      |
| 4|soccer|  null|  null|  null|  null|  null|
| 5|soccer|  null|  null|  null|  null|  null|
| 6|soccer|  null|  null|  null|  null|  null|
| 7|soccer|  null|  null|  null|  null|  null|
| 8|soccer|330024|330401|      |      |      |
| 9|soccer|330055|330106|      |      |      |
|10|soccer|  null|  null|  null|  null|  null|
|11|soccer|390027|      |      |      |      |
|12|soccer|  null|  null|  null|  null|  null|
|13|soccer|330101|      |      |      |      |
|14|soccer|330059|      |      |      |      |
|15|soccer|  null|  null|  null|  null|  null|
|16|soccer|140242|140281|      |      |      |
|17|soccer|330214|      |      |      |      |
|18|soccer|      |      |      |      |      |
|19|soccer|330055|330196|      |      |      |
|20|soccer|210022|      |      |      |      |
+--+------+------+------+------+------+------+

모든 var 열은 다음과 같습니다.

string (nullable = true)

따라서 모든 빈 행을 "null"로 변경하여 "null"이있는 빈 셀과 셀을 RDD에 대한 데이터 프레임을 떠나지 않고 동일하게 처리 할 수 있도록하고 싶습니다.

차크 조 하르

한 가지 옵션은 반대로하는 것입니다. 즉, null을 빈 값으로 대체합니다 (개인적으로 null을 싫어합니다 ...).이 경우 coalesce함수를 사용할 수 있습니다 .

import org.apache.spark.sql.functions._
val result = input.withColumn("myCol", coalesce(input("myCol"), lit("")))

여러 열에 대해 수행하려면 다음을 수행하십시오.

val cols = Seq("var1", "var2", "var3", "var4", "var5")
val result = cols.foldLeft(input) { case (df, colName) => df.withColumn(colName, coalesce(df(colName), lit(""))) }

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-7

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

SataFrame에서 누락 된 값을 채우는 방법은 무엇입니까?

SataFrame에서 누락 된 값을 채우는 방법은 무엇입니까?

누락 된 NAN을 채우는 방법은 무엇입니까?

Pandas : 대규모 데이터 세트에서 누락 된 값을 채우는 방법은 무엇입니까?

DataFrame에서 누락 된 행을 생성 / 채우는 방법은 무엇입니까?

SQl Server에서 누락 된 행으로 인해 결과 집합을 채우는 방법은 무엇입니까?

R에서 맵의 흰색 / 누락 된 부분을 채우는 방법은 무엇입니까?

사전 훈련 된 모델을 사용하여 누락 된 값을 채우는 방법은 무엇입니까?

그룹화 된 평균을 기준으로 누락 된 값을 채우는 방법은 무엇입니까?

누락 된 값을 전날 값으로 채우는 방법은 무엇입니까? (dplyr -spread 사용)

Dymola에서 누락 된 방정식을 찾는 방법은 무엇입니까?

열의 패턴에 따라 Pandas 데이터 프레임에서 누락 된 값을 채우는 방법은 무엇입니까?

BigQuery에서 선형 보간으로 불규칙적으로 누락 된 값을 채우는 방법은 무엇입니까?

Pandas : 다중 인덱스 시계열에서 누락 된 기간 / 날짜 / 시간 값을 채우는 방법은 무엇입니까?

Pandas DataFrame에서 누락 된 시간 값을 채우는 방법

R에서 data.frame의 누락 값을 채우는 방법은 무엇입니까?

파이썬에서 누락 된 값과 누락 된 값의 개수가있는 열 이름을 인쇄하는 방법은 무엇입니까?

pandas에서 누락 된 값을 평균 ffill () 및 bfill ()으로 바꾸는 방법은 무엇입니까?

R-Dplyr Summarize 함수에서 누락 된 값과 Nan을 제거하는 방법은 무엇입니까?

R의 MCA (다중 대응 분석)에서 누락 된 값을 제외하는 방법은 무엇입니까?

R에서 누락 된 값을 평균으로 대체하여 처리하는 방법은 무엇입니까?

ggplot2의 범례에서 누락 된 값을 표시하는 방법은 무엇입니까?

누락 된 날짜를 데이터 프레임에 추가하고 Python에서 다른 해당 열을 채우는 방법은 무엇입니까?

파이썬 목록에 누락 된 값을 추가하는 방법은 무엇입니까?

R을 사용하여 일부 값이 누락 된 고유 식별자에 누락 된 0을 추가하는 방법은 무엇입니까?

Python을 사용하여 현재 값을 기반으로 누락 된 값을 채우는 방법은 무엇입니까?

Bigquery 테이블 범위 쿼리에서 누락 된 열을 '무시'하는 방법은 무엇입니까?

R에서 여러 열로 누락 된 값을 채우는 방법

dc.js에서 누락 된 값 처리를 정의하는 방법은 무엇입니까?

다른 데이터 프레임에서 값이 누락 된 경우 한 데이터 프레임에서 행을 삭제하는 방법은 무엇입니까?

다른 배열에있는 누락 된 값이있는 경우 배열에 NaN을 삽입하는 방법은 무엇입니까?