Spark : 두 데이터 프레임의 열 일치

debugcn 에 게시 Dev

Nareshbabral

다음과 같은 형식의 데이터 프레임이 있습니다.

+---+---+------+---+
| sp|sp2|colour|sp3|
+---+---+------+---+
|  0|  1|     1|  0|
|  1|  0|     0|  1|
|  0|  0|     1|  0|
+---+---+------+---+

다른 데이터 프레임은 첫 번째 데이터 프레임의 각 열에 대한 계수를 포함합니다. 예를 들면

+------+------+---------+------+
| CE_sp|CE_sp2|CE_colour|CE_sp3|
+------+------+---------+------+
|  0.94|  0.31|     0.11|  0.72|
+------+------+---------+------+

이제 두 번째 데이터 프레임의 점수를 추가하여 계산되는 첫 번째 데이터 프레임에 열을 추가하고 싶습니다.

예를 들어.

+---+---+------+---+-----+
| sp|sp2|colour|sp3|Score|
+---+---+------+---+-----+
|  0|  1|     1|  0| 0.42|
|  1|  0|     0|  1| 1.66|
|  0|  0|     1|  0| 0.11|
+---+---+------+---+-----+

즉

r -> row of first dataframe
score = r(0)*CE_sp + r(1)*CE_sp2 + r(2)*CE_colour + r(3)*CE_sp3

n 개의 열이있을 수 있으며 열의 순서는 다를 수 있습니다.

미리 감사드립니다 !!!

제로 323

빠르고 간단합니다.

import org.apache.spark.sql.functions.col

val df = Seq(
  (0, 1, 1, 0), (1, 0, 0, 1), (0, 0, 1, 0)
).toDF("sp","sp2", "colour", "sp3")

val coefs = Map("sp" -> 0.94, "sp2" -> 0.32, "colour" -> 0.11, "sp3" -> 0.72)
val score = df.columns.map(
  c => col(c) * coefs.getOrElse(c, 0.0)).reduce(_ + _)

df.withColumn("score", score)

PySpark에서도 마찬가지입니다.

from pyspark.sql.functions import col

df = sc.parallelize([
    (0, 1, 1, 0), (1, 0, 0, 1), (0, 0, 1, 0)
]).toDF(["sp","sp2", "colour", "sp3"])

coefs = {"sp": 0.94, "sp2": 0.32, "colour": 0.11, "sp3": 0.72}
df.withColumn("score", sum(col(c) * coefs.get(c, 0) for c in df.columns))

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-15

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Spark : 두 데이터 프레임의 열 일치

Spark : 두 데이터 프레임의 열 일치

R-두 데이터 프레임의 두 열 일치

열이 다른 두 Spark 데이터 프레임의 결합

R의 두 데이터 프레임 열간에 일치하는 값 벡터화

두 번째 데이터 프레임에서 일치하는 키를 기반으로 Spark 데이터 프레임 열에 목록 추가

R : 서로 다른 데이터 프레임의 두 열 일치, 배수 출력

두 데이터 프레임의 열이 동일한 데이터 프레임의 열 값 할당

일치하는 열에서 두 데이터 프레임 결합

동일한 데이터 프레임의 두 열 빼기

setdiff 두 개의 단일 열 데이터 프레임

두 개의 데이터 프레임을 여러 열과 일치시키고 일치 후 열 추가

Pandas에서 서로 다른 두 데이터 프레임의 열을 일치시켜 한 데이터 프레임의 열을 업데이트하는 방법

부분 문자열 일치를 기반으로 두 데이터 프레임의 두 열 비교

두 데이터 프레임의 두 기존 열 간의 일치를 기반으로 주파수 추가

두 데이터 프레임, pandas에서 두 개의 동일한 열 결합

세 번째 데이터 프레임의 일치 값을 기반으로 새로운 부울 열이있는 두 데이터 프레임의 곱

두 열 조합의 일치를 기반으로 한 데이터 프레임에서 다른 데이터 프레임으로 열 복사

R-두 번째 데이터 프레임의 열을 일치시켜 데이터 프레임에서 선택한 열을 곱합니다.

두 번째 데이터 프레임에 일치하는 값이있는 경우 데이터 프레임 열의 값을 바꿉니다.

두 열의 문자열 일치를 기반으로하는 부분 집합 R 데이터 프레임

R의 서로 다른 데이터 프레임에있는 두 열 쌍의 값 일치

두 열의 기준과 일치하는 데이터 프레임의 행만 반환합니다.

두 열의 값 범위를 기준으로 데이터 프레임의 행 일치

두 열의 값이 R에서 일치하지 않는 데이터 프레임에서 행 제거

두 데이터 프레임 간의 일대일 열 값 비교-Pandas

Pandas 데이터 프레임의 두 열을 목록 목록으로 펼치기

Spark Scala 데이터 프레임에서 일부 특정 열의 최대 값

R의 일부 문자로 두 데이터 프레임 일치

Spark 데이터 프레임에서 두 열의 차이 찾기 및 새 열에 추가

두 데이터 프레임간에 일치하는 열 값 연결