搜索

搜索

将dask数据帧转换为数据帧太慢，使用它并行处理时不节省时间

debugcn 发表于 Dev

9

nan RONG

import pandas as pd import dask.dataframe as dd import time

 import warnings
warnings.simplefilter('ignore')


data['x'] = range(1000)
data['y'] = range(1000)

def add(s):
    s['sum'] = s['x']+s['y']
    return s
start = time.time()
n_data = data.apply(add, axis=1)
print('it cost time is {} sec'.format(time.time()-start))

start = time.time()
d_data = dd.from_pandas(data, npartitions=10)
s_data = d_data.apply(add, axis=1)
print('it cost time is {} sec'.format(time.time()-start))
start = time.time()
s_data = s_data.compute()
print('but transform it cost time is {} sec'.format(time.time()-start))

结果是：

它花费的时间是 1.0297248363494873 秒

它花费的时间是 0.008629083633422852 秒

但转换它的成本时间是 1.3664238452911377 秒

罗克林

熊猫申请很慢。因为您使用 Python 函数逐行操作，所以它必须使用 Python for 循环而不是 C for 循环。

Dask 数据帧的默认调度程序使用线程，这通常非常适合快速向量化 Pandas 操作，但对受 Python 代码约束的慢速 Pandas 操作无济于事。您可以考虑尝试多处理或分布式调度程序。请参阅http://docs.dask.org/en/latest/scheduling.html

但是，我鼓励您在尝试 Dask 之前更好地使用 Pandas。使用快速 Pandas API 可能比 Dask 更快地加速您的计算。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-22

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

R数据帧：节省时间的数据转换方式

来自分类Dev

在mysql上节省时间作为数据

来自分类Dev

摘要统计数据节省时间

来自分类Dev

使用postgres数据库节省时间的最佳方法是什么？

来自分类Dev

使用产量如何节省时间或内存？

来自分类Dev

使用准备好的语句节省时间

来自分类Dev

Cassandra为行业数据传感器节省时间序列

来自分类Dev

Cassandra为行业数据传感器节省时间序列

来自分类Dev

Tensorflow：加载，节省时间

来自分类Dev

如何在Laravel 5中以时间格式在数据库中节省时间？

来自分类Dev

如何异步执行或并行化Azure PowerShell操作以节省时间？

来自分类Dev

重用带有EF 6 DbContext的数据库连接是否可以节省时间？

来自分类Dev

重用带有EF 6 DbContext的数据库连接是否可以节省时间？

来自分类Dev

节省时间12小时至24小时格式

来自分类Dev

FireDAC：节省时间到SQLite DB

来自分类Dev

在C ++ 11中节省时间戳

来自分类Dev

通过实体框架节省时间过多

来自分类Dev

C＃和VS2015：编译时如何节省时间？

来自分类Dev

使用 lambda 函数 + 使用二维数组映射节省时间

来自分类Dev

如何使用 java.sql.Date 节省时间？

来自分类Dev

Pandas apply - 重复使用应用结果以节省时间

来自分类Dev

如何让 sublime text 3 编辑器使用“%}”自动完成“{%”以节省时间？

来自分类Dev

使用sqldf时将数据帧强制转换为列表

来自分类Dev

使用Dask并行过滤数据帧的块

来自分类Dev

节省时间从Python的嵌套列表中删除反向重复项吗？

来自分类Dev

列出对象中所有索引的最节省时间/空间的方法

来自分类Dev

如何通过多种COUNTIFS可能性来节省时间？

来自分类Dev

在 6 个嵌套的 for 循环代码中节省时间

来自分类Dev

使用 to_html 将数据帧转换为 HTML 时，如何更改数据帧的数据类型？

Related 相关文章

文章

热门标签

归档