스파크 데이터 프레임에서 타임 스탬프 열을 병합하는 가장 효율적인 방법

debugcn 에 게시 Dev

길 헤르 메크 스

Spark 데이터 프레임에서 두 열을 병합하는 가장 효율적인 방법은 무엇입니까?

동일한 의미를 갖는 두 개의 열이 있습니다. 의 null 값은 timestamp다음의 값으로 채워야합니다.toAppendData_timestamp

두 열에 값이 있으면 값이 같음을 의미합니다.

내가 이거 가지고있어:

+--------------------+----------------------+--------+
|           timestamp|toAppendData_timestamp|   value|
+--------------------+----------------------+--------+
|2016-03-24 22:11:...|                  null|    null|
|                null|  2016-03-24 22:12:...|0.015625|
|                null|  2016-03-19 15:54:...|   5.375|
|2016-03-19 15:55:...|  2016-03-19 15:55:...| 5.78125|
|2016-03-19 15:56:...|                  null|    null|
|2016-03-24 22:11:...|  2016-03-24 22:11:...| 0.15625|
+--------------------+----------------------+--------+

그리고 나는 이것이 필요합니다.

+--------------------+----------------------+--------+
|    timestamp_merged|toAppendData_timestamp|   value|
+--------------------+----------------------+--------+
|2016-03-24 22:11:...|                  null|    null|
|2016-03-24 22:12:...|  2016-03-24 22:12:...|0.015625|
|2016-03-19 15:54:...|  2016-03-19 15:54:...|   5.375|
|2016-03-19 15:55:...|  2016-03-19 15:55:...| 5.78125|
|2016-03-19 15:56:...|                  null|    null|
|2016-03-24 22:11:...|  2016-03-24 22:11:...| 0.15625|
+--------------------+----------------------+--------+

나는 이것을 시도했지만 성공하지 못했습니다.

appendedData = appendedData['timestamp'].fillna(appendedData['toAppendData_timestamp'])

제로 323

당신이 찾고있는 기능은 coalesce입니다. 다음에서 가져올 수 있습니다 pyspark.sql.functions.

from pyspark.sql.functions import coalesce, col

그리고 사용 :

appendedData.withColumn(
    'timestamp_merged', 
    coalesce(col('timestamp'), col('toAppendData_timestamp'))
)

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-14

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

스파크 데이터 프레임에서 타임 스탬프 열을 병합하는 가장 효율적인 방법

스파크 데이터 프레임에서 타임 스탬프 열을 병합하는 가장 효율적인 방법

날짜 열을 타임 스탬프 열 + 한 시간으로 변환하는 가장 효율적인 방법

데이터 프레임 파이썬에서 열 값을 추가하는 가장 효율적인 방법을 작성하는 방법은 무엇입니까?

데이터 프레임 열에 기능을 적용하는 가장 효율적인 방법

큰 데이터 프레임 내에서 값을 수정하는 가장 효율적인 방법-Python

목록의 데이터 프레임에서 요소의 이름을 바꾸는 가장 효율적인 방법

R의 데이터 프레임에서 평균을 가져와 동일한 데이터 프레임에 다시 저장하는보다 효율적인 방법

Python에서 Pandas를 사용하여 문자열 객체를 타임 스탬프로 변환하는 가장 효율적인 방법

타임 스탬프를 가장 가까운 10 초로 반올림하는 가장 효율적인 방법

Pandas 데이터 프레임에서 가장 가까운 타임 스탬프로 행을 잡는 방법은 무엇입니까?

Pandas 데이터 프레임에서 타임 스탬프 사이의 값을 계산하는 방법

Pandas 데이터 프레임의 다중 인덱스에서 열을 스택 해제하는 대안적이고 효율적인 방법이 있습니까?

데이터 프레임을 배열 타임 스탬프와 병합하고 배열 조건에 플롯하는 방법은 무엇입니까?

데이터 프레임을 추가하는보다 효율적인 방법

데이터 프레임에서 Null 값을 찾는 효율적인 방법

시간 간격에 따라 데이터 프레임을 병합하는 효율적인 방법

데이터 프레임에서 사전을 가져 오는 효율적인 방법

날짜 시간 인덱스와 두 개의 열에서 Pandas 데이터 프레임을 병합하는 방법

데이터 프레임에서 선택한 행 집합에 대해 수학을 수행하는 가장 효율적인 방법은 무엇입니까?

타임 스탬프가있는 Pandas 데이터 프레임에서 변경되지 않은 값을 제거하는 방법은 무엇입니까?

데이터 프레임에서 목록의 모든 요소를 검색하는 가장 효율적인 방법

수많은 가능한 값으로 데이터 프레임을 녹이는 가장 효율적인 방법 Pandas

HDF5 테이블의 열에서 각 고유 값에 대한 마지막 타임 스탬프를 찾는 효율적인 방법

Oracle : 특정 날짜의 모든 레코드를 가져 오기 위해 타임 스탬프 열을 필터링하는 효율적인 where 절

파이썬에서 '타임 스탬프'옆에 새 열을 추가하는 방법이 있습니까?

Pandas 데이터 프레임 텍스트 열에서 배열을 얻는 효과적인 방법

데이터 프레임 열 사이에서 가장 가까운 타임 스탬프 찾기

MVS 데이터 세트 및 PDS 멤버에 대한 파일 수정 타임 스탬프를 읽고 설정하는 가장 효율적인 방법은 무엇입니까?

조건에 따라 데이터 프레임 열을 업데이트하는 효율적인 방법

타임 스탬프에서 크거나 같은 데이터 프레임 병합