将dask数据帧转换为数据帧太慢,使用它并行处理时不节省时间

nan RONG

import pandas as pd import dask.dataframe as dd import time

import warnings
warnings.simplefilter('ignore')


data['x'] = range(1000)
data['y'] = range(1000)

def add(s):
    s['sum'] = s['x']+s['y']
    return s
start = time.time()
n_data = data.apply(add, axis=1)
print('it cost time is {} sec'.format(time.time()-start))

start = time.time()
d_data = dd.from_pandas(data, npartitions=10)
s_data = d_data.apply(add, axis=1)
print('it cost time is {} sec'.format(time.time()-start))
start = time.time()
s_data = s_data.compute()
print('but transform it cost time is {} sec'.format(time.time()-start))

结果是:

它花费的时间是 1.0297248363494873 秒

它花费的时间是 0.008629083633422852 秒

但转换它的成本时间是 1.3664238452911377 秒

罗克林

熊猫申请很慢。因为您使用 Python 函数逐行操作,所以它必须使用 Python for 循环而不是 C for 循环。

Dask 数据帧的默认调度程序使用线程,这通常非常适合快速向量化 Pandas 操作,但对受 Python 代码约束的慢速 Pandas 操作无济于事。您可以考虑尝试多处理或分布式调度程序。请参阅http://docs.dask.org/en/latest/scheduling.html

但是,我鼓励您在尝试 Dask 之前更好地使用 Pandas。使用快速 Pandas API 可能比 Dask 更快地加速您的计算。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

R数据帧:节省时间的数据转换方式

来自分类Dev

在mysql上节省时间作为数据

来自分类Dev

摘要统计数据节省时间

来自分类Dev

使用postgres数据库节省时间的最佳方法是什么?

来自分类Dev

使用产量如何节省时间或内存?

来自分类Dev

使用准备好的语句节省时间

来自分类Dev

Cassandra为行业数据传感器节省时间序列

来自分类Dev

Cassandra为行业数据传感器节省时间序列

来自分类Dev

Tensorflow:加载,节省时间

来自分类Dev

如何在Laravel 5中以时间格式在数据库中节省时间?

来自分类Dev

如何异步执行或并行化Azure PowerShell操作以节省时间?

来自分类Dev

重用带有EF 6 DbContext的数据库连接是否可以节省时间?

来自分类Dev

重用带有EF 6 DbContext的数据库连接是否可以节省时间?

来自分类Dev

节省时间12小时至24小时格式

来自分类Dev

FireDAC:节省时间到SQLite DB

来自分类Dev

在C ++ 11中节省时间戳

来自分类Dev

通过实体框架节省时间过多

来自分类Dev

C#和VS2015:编译时如何节省时间?

来自分类Dev

使用 lambda 函数 + 使用二维数组映射节省时间

来自分类Dev

如何使用 java.sql.Date 节省时间?

来自分类Dev

Pandas apply - 重复使用应用结果以节省时间

来自分类Dev

如何让 sublime text 3 编辑器使用“%}”自动完成“{%”以节省时间?

来自分类Dev

使用sqldf时将数据帧强制转换为列表

来自分类Dev

使用Dask并行过滤数据帧的块

来自分类Dev

节省时间从Python的嵌套列表中删除反向重复项吗?

来自分类Dev

列出对象中所有索引的最节省时间/空间的方法

来自分类Dev

如何通过多种COUNTIFS可能性来节省时间?

来自分类Dev

在 6 个嵌套的 for 循环代码中节省时间

来自分类Dev

使用 to_html 将数据帧转换为 HTML 时,如何更改数据帧的数据类型?

Related 相关文章

  1. 1

    R数据帧:节省时间的数据转换方式

  2. 2

    在mysql上节省时间作为数据

  3. 3

    摘要统计数据节省时间

  4. 4

    使用postgres数据库节省时间的最佳方法是什么?

  5. 5

    使用产量如何节省时间或内存?

  6. 6

    使用准备好的语句节省时间

  7. 7

    Cassandra为行业数据传感器节省时间序列

  8. 8

    Cassandra为行业数据传感器节省时间序列

  9. 9

    Tensorflow:加载,节省时间

  10. 10

    如何在Laravel 5中以时间格式在数据库中节省时间?

  11. 11

    如何异步执行或并行化Azure PowerShell操作以节省时间?

  12. 12

    重用带有EF 6 DbContext的数据库连接是否可以节省时间?

  13. 13

    重用带有EF 6 DbContext的数据库连接是否可以节省时间?

  14. 14

    节省时间12小时至24小时格式

  15. 15

    FireDAC:节省时间到SQLite DB

  16. 16

    在C ++ 11中节省时间戳

  17. 17

    通过实体框架节省时间过多

  18. 18

    C#和VS2015:编译时如何节省时间?

  19. 19

    使用 lambda 函数 + 使用二维数组映射节省时间

  20. 20

    如何使用 java.sql.Date 节省时间?

  21. 21

    Pandas apply - 重复使用应用结果以节省时间

  22. 22

    如何让 sublime text 3 编辑器使用“%}”自动完成“{%”以节省时间?

  23. 23

    使用sqldf时将数据帧强制转换为列表

  24. 24

    使用Dask并行过滤数据帧的块

  25. 25

    节省时间从Python的嵌套列表中删除反向重复项吗?

  26. 26

    列出对象中所有索引的最节省时间/空间的方法

  27. 27

    如何通过多种COUNTIFS可能性来节省时间?

  28. 28

    在 6 个嵌套的 for 循环代码中节省时间

  29. 29

    使用 to_html 将数据帧转换为 HTML 时,如何更改数据帧的数据类型?

热门标签

归档