搜索

搜索

Pyspark：如何从Spark数据框中过滤10000个随机元素

debugcn 发表于 Dev

5

paolof89

如何从Spark DataFrame中提取10000个元素的随机样本？

我需要类似Pandas中的示例函数

时钟从机

您可以使用解决此问题randomSplit。结果将是近似的。您可能无法获得确切的10000行，但将足够接近

import pandas as pd
totalrows = 40000
df = pd.DataFrame([["name_"+str(i) for i in range(totalrows)], list(range(totalrows))]).transpose()
sdf = spark.createDataFrame(df)

def random_sampler(X, totalrows, nrows=100, seed = 42):
    split_ratios = [nrows/totalrows, 1-(nrows/totalrows)]
    random_sampled_data = X.randomSplit([split_ratio for split_ratio in split_ratios], seed=seed)
    return random_sampled_data[0]


random_sampler(sdf, totalrows, nrows=10000, seed = 42).count()
# 9952

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-6

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

如何使用来自另一个数据框的随机值更新Pyspark中的数据框？

来自分类Dev

PySpark-如何从此数据框中过滤行

来自分类常见问题

如何从Spark数据框中过滤出空值

来自分类Dev

如何从Spark数据框中删除/过滤特定行

来自分类Dev

PySpark - 如何根据列中的两个值从数据框中过滤出连续的行块

来自分类Dev

如何删除PySpark数据框中的数组元素？

来自分类Dev

在Pyspark中的多个列上过滤具有多个条件的Spark数据框

来自分类Dev

从pyspark中的一个非常大的数据框中选择随机列

来自分类Dev

在 jupyter 中访问数据框元素 pyspark

来自分类Dev

过滤 Spark 数据框

来自分类Dev

过滤pyspark数据框中的行并创建一个包含结果的新列

来自分类Dev

如何在 Pyspark spark.sql 数据框中同质化数据

来自分类Dev

PySpark：将数据框中的行随机化

来自分类Dev

如何使用PySpark在数据框中删除基于多个过滤器的列？

来自分类Dev

如何在pyspark数据框中的任何列为空的行中进行过滤

来自分类Dev

在pyspark中，如何通过一列数据框循环过滤功能？

来自分类Dev

当每个ID多次评估时，如何在Spark数据框中随机采样30％的ID

来自分类Dev

在PySpark列表数据框中的每个元素之后附加一个值

来自分类Dev

从Hive查询中深度复制已过滤的PySpark数据框

来自分类Dev

根据列表中的值过滤pyspark数据框

来自分类Dev

比较和删除Spark / PySpark中不一致数组的数据框列中的元素

来自分类Dev

如何在数据框中过滤map <String，Int>：Spark / Scala

来自分类Dev

如何在Spark中通过数据框中的索引删除数组中的元素

来自分类Dev

如何过滤数据框中仅包含特定重复字符的元素

来自分类Dev

如何过滤熊猫数据框中的数字？

来自分类Dev

如何通过布尔列过滤Spark数据框

来自分类Dev

如何根据另一个 pyspark 数据框中的唯一记录或值为未知的值选择一个 pyspark 数据框中的记录

来自分类Dev

根据值过滤并在spark数据框中创建列表

来自分类Dev

根据Spark数据框中的键值进行过滤

Related 相关文章

文章

热门标签

归档