Pyspark 열을 키, 값 쌍 목록으로 결합 (UDF 없음)

debugcn 에 게시 Dev

알렉산더 비테

다른 열의 JSON 표현 인 새 열을 만들고 싶습니다. 목록의 키, 값 쌍.

출처:

유래	목적지	카운트
토론토	오타와	5
몬트리올	밴쿠버	10

내가 원하는 것 :

유래	목적지	카운트	json
토론토	오타와	5	[{ "origin": "toronto"}, { "destination", "ottawa"}, { "count": "5"}]
몬트리올	밴쿠버	10	[{ "origin": "montreal"}, { "destination", "vancouver"}, { "count": "10"}]

(모든 것이 문자열이 될 수 있지만 중요하지 않습니다).

나는 다음과 같은 것을 시도했다.

df.withColumn('json', to_json(struct(col('origin'), col('destination'), col('count'))))

그러나 key:value하나의 개체에 모든 쌍이 있는 열을 만듭니다 .

{"origin":"United States","destination":"Romania"}

UDF없이 가능합니까? 감사!

mck

이것을 해킹하는 방법 :

import pyspark.sql.functions as F

df2 = df.withColumn(
    'json', 
    F.array(
        F.to_json(F.struct('origin')),
        F.to_json(F.struct('destination')),
        F.to_json(F.struct('count'))
    ).cast('string')
)

df2.show(truncate=False)
+--------+-----------+-----+--------------------------------------------------------------------+
|origin  |destination|count|json                                                                |
+--------+-----------+-----+--------------------------------------------------------------------+
|toronto |ottawa     |5    |[{"origin":"toronto"}, {"destination":"ottawa"}, {"count":"5"}]     |
|montreal|vancouver  |10   |[{"origin":"montreal"}, {"destination":"vancouver"}, {"count":"10"}]|
+--------+-----------+-----+--------------------------------------------------------------------+

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-8

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Pyspark 열을 키, 값 쌍 목록으로 결합 (UDF 없음)

Pyspark 열을 키, 값 쌍 목록으로 결합 (UDF 없음)

중첩 된 사전을 키 : 값 쌍 목록으로 병합

PHP-키 / 값 쌍의 배열을 키 => 값으로 연결합니까?

pyspark는 문자열을 키 값 쌍으로 분할하고 특정 값을 추출합니다.

일치하는 키 : 값 쌍을 기반으로 사전 목록에서 사전 결합

Python : 튜플 목록을 JSON 값 키 쌍으로 변환

콜론으로 구분 된 값 목록을 키 = 값 쌍으로 변환

하나의 키-값 쌍 목록을 다른 목록으로 확장

사전 내의 키 값 쌍을 기반으로 사전 목록을 목록 길이의 목록으로 분할

TCL에서 2 개 목록을 키 값 쌍으로 병합하는 방법은 무엇입니까?

키 / 값 쌍을 배열로 푸시

키 / 값 쌍을 배열로 푸시

키 값 쌍을 열로 분산

사전 목록 열 필드에서 키 값 쌍을 기반으로 DataFrame 행을 어떻게 필터링합니까?

맵에서 키 = 값 쌍으로 문자열을 구문 분석합니까?

PYTHON : 속성 값 쌍 목록을 다중 키 사전으로 분할

다양한 키 값 쌍으로 배열 병합

병합 키, 키 값을 기반으로하는 값 목록

angularjs : 키 값 쌍으로 배열 반복

키 값 쌍으로 문자열 분할

내가 어떻게 인덱스가없는 키의 목록 (각의) 값 쌍을 조롱합니까?

'AngularJS'를 사용하여 키-값 쌍을 배열 목록으로 변환하는 방법은 무엇입니까?

여러 값 열을 새 키, 값 쌍으로 변환

키 / 값 쌍의 Pyspark RDD를 .csv 형식으로 구문 분석

PySpark에서 값의 유사성을 기반으로 키, 값 쌍을 줄입니다.

키 = 값 쌍을 JSON으로 변환

맵을 키 = 값 쌍으로 변환

중첩 된 사전 및 목록에서 값으로 Python3 검색 한 다음 가장 가까운 키 / 값 쌍을 가져옵니다.

키 값 쌍을 사용하는 문자열을 만들고 키로 값을 추출합니다.

사전 목록을 특정 키 / 값 쌍이있는 객체 목록 사전으로 반전