このスクリプトを試してみました。
DEFINE SRS datafu.pig.sampling.SimpleRandomSample('0.01');
examples = LOAD '/home/sreeveni/myfiles/FS/age.txt' as (id,age);
grouped = GROUP examples BY id;
sampled = FOREACH grouped GENERATE FLATTEN(SRS(examples));
DUMP sampled;
これはどういう意味ですか:
SimpleRandomSample('0.01')
あなたはこのようなことを試すことができます:
examples = LOAD '/home/sreeveni/myfiles/FS/age.txt' as (id,age);
sampled = SAMPLE examples 0.005;
DUMP sampled;
これにより、約4行数の0.5%が生成されます。SAMPLEコマンドで指定する値は、概算値である合計行数のパーセンテージです。固定数の行を生成する方法はないと思います。
また、pigをマップモードで使用する場合は、gruntを使用して入力ファイルをhdfsにコピーします。copyFromLocal / local / source / path / hdfs / path / for / input
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加