ApachepigでSimpleRandomSampleを使用する方法

Unmesha SreeVeni

このスクリプトを試してみました。

DEFINE SRS datafu.pig.sampling.SimpleRandomSample('0.01');

examples = LOAD '/home/sreeveni/myfiles/FS/age.txt' as (id,age);
 grouped = GROUP examples BY id;
sampled = FOREACH grouped GENERATE FLATTEN(SRS(examples));
DUMP sampled;

これはどういう意味ですか:

SimpleRandomSample('0.01')
冒険者

あなたはこのようなことを試すことができます:

    examples = LOAD '/home/sreeveni/myfiles/FS/age.txt' as (id,age);
    sampled = SAMPLE examples 0.005;
    DUMP sampled;

これにより、約4行数の0.5%が生成されます。SAMPLEコマンドで指定する値は、概算値である合計行数のパーセンテージです。固定数の行を生成する方法はないと思います。

また、pigをマップモードで使用する場合は、gruntを使用して入力ファイルをhdfsにコピーします。copyFromLocal / local / source / path / hdfs / path / for / input

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

apachepigを使用して非構造化データを構造化する方法

分類Dev

ApachePigを使用してGROUPBYのようなSQLを取得するにはどうすればよいですか?

分類Dev

ApachePigで文字列の最初の部分を抽出する正規表現

分類Dev

Apachepigを使用してディレクトリを再帰的に一覧表示する

分類Dev

ApachePigの例で演算子の使用法を明確にします

分類Dev

次のApachePigエラーを解決するにはどうすればよいですか?

分類Dev

ApachePig-コマンドエラーを説明する

分類Dev

JSON列をApachePIGのフィールドとして読み取る方法

分類Dev

フィルタリングされた値をカウントする-ApachePIG

分類Dev

nodeNameで「*」を使用する方法

分類Dev

IndexErrorでIf / Thenを使用する方法

分類Dev

SpringControllerで...を使用する方法

分類Dev

SQLでIFを使用する方法

分類Dev

jqueryでor(||)を使用する方法

分類Dev

mongomonkで$ inを使用する方法

分類Dev

ApachePigを使用した日付のフィルタリング

分類Dev

Linuxでfsharpでnugetを使用する方法

分類Dev

RethinkDBでorderbyでgetallを使用する方法

分類Dev

AndroidでDiskLruCacheでContentProviderを使用する方法

分類Dev

SpringでfindAllでOrderByを使用する方法

分類Dev

FlutterでWebSocketChannelでJWTを使用する方法

分類Dev

ReactでTypescriptでPropTypesを使用する方法

分類Dev

AndroidでEditTextでTextInputLayoutを使用する方法

分類Dev

JavaScriptでfindIndexでfind()を使用する方法

分類Dev

Tableauで使用するWMSURLを知る方法

分類Dev

ApachePigのNタプルごとの平均値を取得します

分類Dev

Pythonスクリプトで、スタンドアロンの単体テストでApachePigのPythonデコレータを無視するにはどうすればよいですか。

分類Dev

ExcelでINDIRECT関数を使用する方法

分類Dev

Laravelでjsを使用する方法

Related 関連記事

  1. 1

    apachepigを使用して非構造化データを構造化する方法

  2. 2

    ApachePigを使用してGROUPBYのようなSQLを取得するにはどうすればよいですか?

  3. 3

    ApachePigで文字列の最初の部分を抽出する正規表現

  4. 4

    Apachepigを使用してディレクトリを再帰的に一覧表示する

  5. 5

    ApachePigの例で演算子の使用法を明確にします

  6. 6

    次のApachePigエラーを解決するにはどうすればよいですか?

  7. 7

    ApachePig-コマンドエラーを説明する

  8. 8

    JSON列をApachePIGのフィールドとして読み取る方法

  9. 9

    フィルタリングされた値をカウントする-ApachePIG

  10. 10

    nodeNameで「*」を使用する方法

  11. 11

    IndexErrorでIf / Thenを使用する方法

  12. 12

    SpringControllerで...を使用する方法

  13. 13

    SQLでIFを使用する方法

  14. 14

    jqueryでor(||)を使用する方法

  15. 15

    mongomonkで$ inを使用する方法

  16. 16

    ApachePigを使用した日付のフィルタリング

  17. 17

    Linuxでfsharpでnugetを使用する方法

  18. 18

    RethinkDBでorderbyでgetallを使用する方法

  19. 19

    AndroidでDiskLruCacheでContentProviderを使用する方法

  20. 20

    SpringでfindAllでOrderByを使用する方法

  21. 21

    FlutterでWebSocketChannelでJWTを使用する方法

  22. 22

    ReactでTypescriptでPropTypesを使用する方法

  23. 23

    AndroidでEditTextでTextInputLayoutを使用する方法

  24. 24

    JavaScriptでfindIndexでfind()を使用する方法

  25. 25

    Tableauで使用するWMSURLを知る方法

  26. 26

    ApachePigのNタプルごとの平均値を取得します

  27. 27

    Pythonスクリプトで、スタンドアロンの単体テストでApachePigのPythonデコレータを無視するにはどうすればよいですか。

  28. 28

    ExcelでINDIRECT関数を使用する方法

  29. 29

    Laravelでjsを使用する方法

ホットタグ

アーカイブ