Pyspark:如何从Spark数据框中过滤10000个随机元素

paolof89

如何从Spark DataFrame中提取10000个元素的随机样本?

我需要类似Pandas中的示例函数

时钟从机

您可以使用解决此问题randomSplit结果将是近似的。您可能无法获得确切的10000行,但将足够接近

import pandas as pd
totalrows = 40000
df = pd.DataFrame([["name_"+str(i) for i in range(totalrows)], list(range(totalrows))]).transpose()
sdf = spark.createDataFrame(df)

def random_sampler(X, totalrows, nrows=100, seed = 42):
    split_ratios = [nrows/totalrows, 1-(nrows/totalrows)]
    random_sampled_data = X.randomSplit([split_ratio for split_ratio in split_ratios], seed=seed)
    return random_sampled_data[0]


random_sampler(sdf, totalrows, nrows=10000, seed = 42).count()
# 9952

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用来自另一个数据框的随机值更新Pyspark中的数据框?

来自分类Dev

PySpark-如何从此数据框中过滤行

来自分类常见问题

如何从Spark数据框中过滤出空值

来自分类Dev

如何从Spark数据框中删除/过滤特定行

来自分类Dev

PySpark - 如何根据列中的两个值从数据框中过滤出连续的行块

来自分类Dev

如何删除PySpark数据框中的数组元素?

来自分类Dev

在Pyspark中的多个列上过滤具有多个条件的Spark数据框

来自分类Dev

从pyspark中的一个非常大的数据框中选择随机列

来自分类Dev

在 jupyter 中访问数据框元素 pyspark

来自分类Dev

过滤 Spark 数据框

来自分类Dev

过滤pyspark数据框中的行并创建一个包含结果的新列

来自分类Dev

如何在 Pyspark spark.sql 数据框中同质化数据

来自分类Dev

PySpark:将数据框中的行随机化

来自分类Dev

如何使用PySpark在数据框中删除基于多个过滤器的列?

来自分类Dev

如何在pyspark数据框中的任何列为空的行中进行过滤

来自分类Dev

在pyspark中,如何通过一列数据框循环过滤功能?

来自分类Dev

当每个ID多次评估时,如何在Spark数据框中随机采样30%的ID

来自分类Dev

在PySpark列表数据框中的每个元素之后附加一个值

来自分类Dev

从Hive查询中深度复制已过滤的PySpark数据框

来自分类Dev

根据列表中的值过滤pyspark数据框

来自分类Dev

比较和删除Spark / PySpark中不一致数组的数据框列中的元素

来自分类Dev

如何在数据框中过滤map <String,Int>:Spark / Scala

来自分类Dev

如何在Spark中通过数据框中的索引删除数组中的元素

来自分类Dev

如何过滤数据框中仅包含特定重复字符的元素

来自分类Dev

如何过滤熊猫数据框中的数字?

来自分类Dev

如何通过布尔列过滤Spark数据框

来自分类Dev

如何根据另一个 pyspark 数据框中的唯一记录或值为未知的值选择一个 pyspark 数据框中的记录

来自分类Dev

根据值过滤并在spark数据框中创建列表

来自分类Dev

根据Spark数据框中的键值进行过滤

Related 相关文章

  1. 1

    如何使用来自另一个数据框的随机值更新Pyspark中的数据框?

  2. 2

    PySpark-如何从此数据框中过滤行

  3. 3

    如何从Spark数据框中过滤出空值

  4. 4

    如何从Spark数据框中删除/过滤特定行

  5. 5

    PySpark - 如何根据列中的两个值从数据框中过滤出连续的行块

  6. 6

    如何删除PySpark数据框中的数组元素?

  7. 7

    在Pyspark中的多个列上过滤具有多个条件的Spark数据框

  8. 8

    从pyspark中的一个非常大的数据框中选择随机列

  9. 9

    在 jupyter 中访问数据框元素 pyspark

  10. 10

    过滤 Spark 数据框

  11. 11

    过滤pyspark数据框中的行并创建一个包含结果的新列

  12. 12

    如何在 Pyspark spark.sql 数据框中同质化数据

  13. 13

    PySpark:将数据框中的行随机化

  14. 14

    如何使用PySpark在数据框中删除基于多个过滤器的列?

  15. 15

    如何在pyspark数据框中的任何列为空的行中进行过滤

  16. 16

    在pyspark中,如何通过一列数据框循环过滤功能?

  17. 17

    当每个ID多次评估时,如何在Spark数据框中随机采样30%的ID

  18. 18

    在PySpark列表数据框中的每个元素之后附加一个值

  19. 19

    从Hive查询中深度复制已过滤的PySpark数据框

  20. 20

    根据列表中的值过滤pyspark数据框

  21. 21

    比较和删除Spark / PySpark中不一致数组的数据框列中的元素

  22. 22

    如何在数据框中过滤map <String,Int>:Spark / Scala

  23. 23

    如何在Spark中通过数据框中的索引删除数组中的元素

  24. 24

    如何过滤数据框中仅包含特定重复字符的元素

  25. 25

    如何过滤熊猫数据框中的数字?

  26. 26

    如何通过布尔列过滤Spark数据框

  27. 27

    如何根据另一个 pyspark 数据框中的唯一记录或值为未知的值选择一个 pyspark 数据框中的记录

  28. 28

    根据值过滤并在spark数据框中创建列表

  29. 29

    根据Spark数据框中的键值进行过滤

热门标签

归档