Spark MLlibで、Spark Scalaで文字列を整数に変換するにはどうすればよいですか？

debugcn 投稿 Dev

デヒョンパーク

私が知っているように、MLlibはintergerのみをサポートします。
次に、文字列をscalaでintergerに変換したいと思います。たとえば、txtfileに多くのreviewerID、productIDがあります。

reviewerID    productID
03905X0912    ZXASQWZXAS
0325935ODD    PDLFMBKGMS
...

sourabh

StringIndexer解決策です。推定器とトランスフォーマーを備えたMLパイプラインに適合します。基本的に、入力列を設定すると、各カテゴリの頻度が計算され、0から始まる番号が付けIndexToStringられます。パイプラインの最後に追加して、必要に応じて元の文字列に置き換えることができます。

詳細については、「機能の推定、変換、選択」のMLドキュメントをご覧ください。

あなたの場合、それは次のようになります：

import org.apache.spark.ml.feature.StringIndexer 

val indexer = new StringIndexer().setInputCol("productID").setOutputCol("productIndex") 
val indexed = indexer.fit(df).transform(df)
indexed.show()

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-05-30

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

Spark MLlibで、Spark Scalaで文字列を整数に変換するにはどうすればよいですか？

Spark MLlibで、Spark Scalaで文字列を整数に変換するにはどうすればよいですか？

Scala Spark列配列[文字列]をJSON配列を含む文字列に変換するにはどうすればよいですか？

.withColumn関数で列の整数値を取得するにはどうすればよいですか？[Spark-Scala]

DataFrame列名をSpark-Scalaの値に変換するにはどうすればよいですか？

Spark MLLibのTFVector RDDから単語の詳細を取得するにはどうすればよいですか？

csv文字列をSpark-ML互換のDataset <Row>形式に変換するにはどうすればよいですか？

csv文字列をSpark-ML互換のDataset <Row>形式に変換するにはどうすればよいですか？

Spark Scalaを使用して、1つの列データをベクトルに変換するにはどうすればよいですか？

Scala Sparkで複数の文字を削除するにはどうすればよいですか？

SparkデータフレームのWrappedArray列を文字列に変換するにはどうすればよいですか？

Spark Scalaで2列のarray_containsを使用するにはどうすればよいですか？

Spark：LabeledPointで選択した機能の値を変換するにはどうすればよいですか？

Apache Sparkでselect（）変換を使用するにはどうすればよいですか？

文字列をSparkの列に連結するにはどうすればよいですか？

Sparkの文字列列から数値部分を抽出するにはどうすればよいですか？

Scalaを使用してSparkの行と列を配置するにはどうすればよいですか？

Scalaを使用してsparkデータフレームでarray <FloatType>をBinaryTypeに変換するにはどうすればよいですか？

Sparkのforループをscalaと並列化するにはどうすればよいですか？

Spark列の名前を文字列として取得するにはどうすればよいですか？

Scalaを使用してSpark2.1でミリ秒の文字列列をミリ秒のタイムスタンプに変換するにはどうすればよいですか？

Scalaを使用してSpark2.1でミリ秒の文字列列をミリ秒のタイムスタンプに変換するにはどうすればよいですか？

Scalaを使用してSpark2.1でミリ秒の文字列列をミリ秒のタイムスタンプに変換するにはどうすればよいですか？

配列の列をSparkの各配列の合計を含む列に変換するにはどうすればよいですか？

Scala Sparkでの値と列の操作、spark列で演算子の左側の値を使用するにはどうすればよいですか？

Apache Spark MLlib：JavaでのOLS回帰

Spark Scalaで主キーを自動的に作成するにはどうすればよいですか？

SparkのMLLibを使用してツイートをベクトル化するにはどうすればよいですか？

Sparkを使用してScalaでcountDistinctを使用するにはどうすればよいですか？

Sparkデータフレーム列をArray [Int]からlinalg.Vectorに変換するにはどうすればよいですか？

Java文字列配列からSparkブロードキャスト変数を作成するにはどうすればよいですか？