データフレームフィルターの問題、どうすればよいですか？

debugcn 投稿 Dev

ジョン

Env：Spark 1.6、Scala

私のデータフレームは次のようなものです

DF =
DT col1 col2
---------- | --- | ----
2017011011 | AA | BB
2017011011 | CC | DD
2017011015 | PP | BB
2017011015 | QQ | DD
2017011016 | AA | BB
2017011016 | CC | DD
2017011017 | PP | BB
2017011017 | QQ | DD

SQLのような結果を得るためにフィルタリングするにはどうすればよいですか？ select * from DF where dt> (select distinct dt from DF order by dt desc limit 3)

出力には最後の3つの日付があります

2017011015 | PP | BB
2017011015 | QQ | DD
2017011016 | AA | BB
2017011016 | CC | DD
2017011017 | PP | BB
2017011017 | QQ | DD

ありがとう
ホセイン

モタオ

Spark1.6.1でテスト済み

import sqlContext.implicit._
val df = sqlContext.createDataFrame(Seq(
  (2017011011, "AA", "BB"),
  (2017011011, "CC", "DD"),
  (2017011015, "PP", "BB"),
  (2017011015, "QQ", "DD"),
  (2017011016, "AA", "BB"),
  (2017011016, "CC", "DD"),
  (2017011017, "PP", "BB"),
  (2017011017, "QQ", "DD")
)).select(
  $"_1".as("DT"),
  $"_2".as("col1"),
  $"_3".as("col2")
) 

val dates = df.select($"DT")
  .distinct()
  .orderBy(-$"DT")
  .map(_.getInt(0))
  .take(3)

val result = df.filter(dates.map($"DT" === _).reduce(_ || _))
result.show()

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-27

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

データフレームフィルターの問題、どうすればよいですか？

データフレームフィルターの問題、どうすればよいですか？

このデータフレームを変換してセルにフィルターを適用するにはどうすればよいですか？

パンダのデータフレームで「決して」フィルターを作成するにはどうすればよいですか

別のデータフレームからデータフレームのセルの値を取得するにはどうすればよいですか

Sparkデータフレームの特定のフィールドにのみ「キューブ」を使用するにはどうすればよいですか？

複数の条件に応じてデータフレームに値を挿入するにはどうすればよいですか？論理的な問題

日付のデータフレームを特定の月/日でフィルタリングするにはどうすればよいですか？

行の位置でパンダのデータフレームをフィルタリングするにはどうすればよいですか？

パンダの行を別のデータフレーム列でフィルタリングするにはどうすればよいですか？

Rのデータフレーム内のリストの値をフィルタリングするにはどうすればよいですか？

他のデータフレームに基づいてフィルタリングするにはどうすればよいですか

データフレームを複数フィルタリングするための関数を作成するにはどうすればよいですか？

複数の列でデータフレームをフィルタリングするにはどうすればよいですか？

パンダデータフレームのインデックスフィールドを参照するにはどうすればよいですか？

pandasデータフレームの前後の行をフィルタリングするにはどうすればよいですか？

1つの列に整数があるデータフレームの行をフィルタリングするにはどうすればよいですか

データフレームでデルタを計算するにはどうすればよいですか？

パンダデータフレームの特定のフィールドの値を設定するにはどうすればよいですか？

データフレームのリストの特定のフィールドを変更するにはどうすればよいですか？

このデータフレームをフィルタリングするにはどうすればよいですか？

groupbyを使用してデータフレーム内の重複をフィルタリングするにはどうすればよいですか？

Pandasデータフレームの数値をフィルタリングするにはどうすればよいですか？

パンダのデータフレームをフィルタリングして特定の値を含めるにはどうすればよいですか？

Pythonのデータフレームでgroupbyを使用した後、データフレームをフィルタリングして特定のタイプのレコードを返すにはどうすればよいですか？

パンダデータフレームの重複フィールドを処理するにはどうすればよいですか？

このデータフレームから別のデータフレームに移動するためにpivot_longerを使用するにはどうすればよいですか？（さらにdtypeの問題）

レルムデータベースのスキーマにフィールドを追加するにはどうすればよいですか？

カスタム フォーム バリデーターのフィールドにエラーを表示するにはどうすればよいですか?

フォームフィールドにデータベースDjangoのデータを入力するにはどうすればよいですか？

別のデータフレームの値を使用して、データフレームのレコードにないものをフィルタリングするにはどうすればよいですか？

カスタムフォームバリデーターのフィールドにエラーを表示するにはどうすればよいですか?