Google BigQueryAPPROX_QUANTILESと真の四分位数の取得

Tyler_1

ドキュメントによると

式の値のグループのおおよその境界を返します。ここで、numberは作成する分位数の数を表します。この関数は、数値+ 1要素の配列を返します。ここで、最初の要素はおおよその最小値であり、最後の要素はおおよその最大値です。

真の四分位数が必要な場合はAPPROX_QUANTILES(values, 4)どちらを使用する必要があるようです。[minvalue, 1st quartile, 2nd quartile, 3rd quartile, maxvalue]

https://en.wikipedia.org/wiki/Quartileよると、四分位数セットには3つのデータポイントが含まれています。いずれもデータの最小値/最大値ではありません。

私の仮定は正しいですか?されたAPPROX_QUANTILES(values, 4)真の四分位数を返すために行くの?

エリオット・ブロサード

ベースラインとして、これは1から100までの数値の入力を使用した、変更なしの出力です。

SELECT APPROX_QUANTILES(x, 4) AS output
FROM UNNEST(GENERATE_ARRAY(1, 100)) AS x;
+----------------------------+
|           output           |
+----------------------------+
| ["1","25","50","75","100"] |
+----------------------------+

出力には、最小(1)と最大(100)の両方が含まれます。四分位数だけが必要な場合は、配列からそれらを取り除く必要があります。読みやすさ/構成性のために、一時的なSQLUDFを使用してこれを行うのが最善です。ここINT64では要素タイプに使用していますが、別の要素タイプを使用することもできます。

CREATE TEMP FUNCTION StripFirstLast(arr ARRAY<INT64>) AS (
  ARRAY(SELECT x FROM UNNEST(arr) AS x WITH OFFSET
  WHERE OFFSET BETWEEN 1 AND ARRAY_LENGTH(arr) - 2)
);

SELECT
  APPROX_QUANTILES(x, 4) AS output,
  StripFirstLast(APPROX_QUANTILES(x, 4)) AS quartiles
FROM UNNEST(GENERATE_ARRAY(1, 100)) AS x;
+----------------------------+------------------+
|           output           |    quartiles     |
+----------------------------+------------------+
| ["1","25","50","75","100"] | ["25","50","75"] |
+----------------------------+------------------+

quartiles配列に必要な値のみが含まれていることがわかります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

Google Earth画像:画像コレクションから上位および下位の四分位数の合成画像を作成します

分類Dev

Rの箱ひげ図の下位四分位数と上位四分位数

分類Dev

素人用語での分位数と四分位数

分類Dev

Stataで変数の最高四分位数と最低四分位数を作成します

分類Dev

SQLクエリの四分位数

分類Dev

計算用の四分位数

分類Dev

複数の列と複数の日付の四分位数の平均

分類Dev

関数を使用して各列の平均/中央値/最頻値/四分位数/分位数を取得する

分類Dev

Rの第1四分位数と第3四分位数の間に含まれるデータのみの平均値

分類Dev

1番目と3番目の四分位数を計算する方法は?

分類Dev

箱ひげ図の下位四分位数と上位四分位数を削除し、Rのひげを接続します

分類Dev

海の箱ひげ図の四分位数の計算

分類Dev

海生バイオリン図の四分位数線の特性

分類Dev

基本統計-奇数データセットの四分位数

分類Dev

Pythonを使用して四分位数と十分位数を解く

分類Dev

MS EXCEL:数値の配列から四分位数の境界と値を返す

分類Dev

Excel:中央値と第1四分位数の配列計算に複数の基準を追加する方法

分類Dev

列から最初の四分位数を取得するにはどうすればよいですか

分類Dev

多くの四分位数を効率的に取得するにはどうすればよいですか?

分類Dev

ggplot2の高度なバイオリン図の中央値と四分位数

分類Dev

ベクトルMATLABの四分位数0.25から0.75までの数値

分類Dev

Excelのピボットテーブルとパーセンタイル/四分位数/中央値

分類Dev

iOSで整数のnsarrayの四分位数を見つける方法

分類Dev

四分位数の計算で何が間違っていますか?

分類Dev

MySQL で四分位数 1、2、3 のクエリを作成する方法は?

分類Dev

pandasデータフレームの特定の列の第1四分位数と第3四分位数に含まれる行をフィルタリングするにはどうすればよいですか?

分類Dev

列の累積合計に基づいて不均等な十分位数/四分位数を作成する方法

分類Dev

Excelで複数の基準を持つ配列の四分位数を見つける

分類Dev

指定された数のリストの四分位数を計算します

Related 関連記事

  1. 1

    Google Earth画像:画像コレクションから上位および下位の四分位数の合成画像を作成します

  2. 2

    Rの箱ひげ図の下位四分位数と上位四分位数

  3. 3

    素人用語での分位数と四分位数

  4. 4

    Stataで変数の最高四分位数と最低四分位数を作成します

  5. 5

    SQLクエリの四分位数

  6. 6

    計算用の四分位数

  7. 7

    複数の列と複数の日付の四分位数の平均

  8. 8

    関数を使用して各列の平均/中央値/最頻値/四分位数/分位数を取得する

  9. 9

    Rの第1四分位数と第3四分位数の間に含まれるデータのみの平均値

  10. 10

    1番目と3番目の四分位数を計算する方法は?

  11. 11

    箱ひげ図の下位四分位数と上位四分位数を削除し、Rのひげを接続します

  12. 12

    海の箱ひげ図の四分位数の計算

  13. 13

    海生バイオリン図の四分位数線の特性

  14. 14

    基本統計-奇数データセットの四分位数

  15. 15

    Pythonを使用して四分位数と十分位数を解く

  16. 16

    MS EXCEL:数値の配列から四分位数の境界と値を返す

  17. 17

    Excel:中央値と第1四分位数の配列計算に複数の基準を追加する方法

  18. 18

    列から最初の四分位数を取得するにはどうすればよいですか

  19. 19

    多くの四分位数を効率的に取得するにはどうすればよいですか?

  20. 20

    ggplot2の高度なバイオリン図の中央値と四分位数

  21. 21

    ベクトルMATLABの四分位数0.25から0.75までの数値

  22. 22

    Excelのピボットテーブルとパーセンタイル/四分位数/中央値

  23. 23

    iOSで整数のnsarrayの四分位数を見つける方法

  24. 24

    四分位数の計算で何が間違っていますか?

  25. 25

    MySQL で四分位数 1、2、3 のクエリを作成する方法は?

  26. 26

    pandasデータフレームの特定の列の第1四分位数と第3四分位数に含まれる行をフィルタリングするにはどうすればよいですか?

  27. 27

    列の累積合計に基づいて不均等な十分位数/四分位数を作成する方法

  28. 28

    Excelで複数の基準を持つ配列の四分位数を見つける

  29. 29

    指定された数のリストの四分位数を計算します

ホットタグ

アーカイブ