df
열 이있는 DataFrame 이 있고 벡터 및 행렬 제품에서 사용할 수 있도록 벡터 (예 : a ) column
로 변환 column
하고 싶습니다 DenseVector
.
주의 : 벡터 열이 필요하지 않습니다. 벡터 객체가 필요합니다.
어떻게하나요?
vectorAssembler
함수 ( link )를 찾았 지만 일부 DataFrame 열을 여전히 DataFrame 열인 벡터 열로 변환하므로 도움이되지 않습니다. 내 원하는 출력은 대신 벡터 여야합니다.
이 질문의 목표에 대해 : 왜 DF 열을 벡터로 변환하려고합니까? 숫자 열이있는 DF가 있고 행렬과이 열 사이의 곱을 계산해야한다고 가정합니다. 어떻게하면 되나요? (DF 숫자 행에 대해서도 마찬가지입니다.) 모든 대체 접근 방식을 환영합니다.
어떻게:
DenseVector(df.select("column_name").rdd.map(lambda x: x[0]).collect())
하지만 실제 시나리오에서는 말이되지 않습니다 .
Spark Vectors
는 분산되지 않으므로 데이터가 하나의 (드라이버) 노드의 메모리에 맞는 경우에만 적용됩니다. 이 경우 DataFrame
처리에 Spark 를 사용하지 않을 것 입니다.
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다