并行化Dask聚合

debugcn 发表于 Dev

布伦登·加拉格尔（Brendon Gallagher）

在本文的基础上，我实现了自定义模式公式，但是发现此函数的性能存在问题。本质上，当我进入此聚合时，我的群集仅使用我的一个线程，这对性能没有太大帮助。我正在对16k行中的150多个属性（主要是分类数据）进行计算，我认为我可以将其拆分为单独的线程/进程，并在以后将其放回单个数据帧中。请注意，此聚合必须位于两列上，因此由于无法使用单个列作为索引，我的性能可能会变差。

有没有一种方法可以将迟来的期货或并行处理纳入汇总计算中？

import dask.dataframe as dd
from dask.distributed import Client
from pandas import DataFrame

def chunk(s):
    return s.value_counts()

def agg(s):
    s = s._selected_obj
    return s.groupby(level=list(range(s.index.nlevels))).sum()

def finalize(s):
    # s is a multi-index series of the form (group, value): count. First
    # manually group on the group part of the index. The lambda will receive a
    # sub-series with multi index. Next, drop the group part from the index.
    # Finally, determine the index with the maximum value, i.e., the mode.
    level = list(range(s.index.nlevels - 1))
    return (
        s.groupby(level=level)
        .apply(lambda s: s.reset_index(level=level, drop=True).argmax())
    )

def main() -> DataFrame:
    client = Client('scheduler:8786')

    ddf = dd.read_csv('/sample/data.csv')
    custom_mode = dd.Aggregation('custom mode', chunk, agg, finalize)
    result = ddf.groupby(['a','b']).agg(custom_mode).compute()
    return result

旁注，我正在使用Docker通过daskdev / dask（2.18.1）Docker镜像启动我的调度程序和工作程序。

布伦登·加拉格尔（Brendon Gallagher）

最后，我使用期货从本质上并行化了每一列的聚合。因为我有很多列，所以将每个聚合传递给它自己的工作线程节省了我很多时间。感谢David的评论以及dask文档中有关并行工作负载的文章！

from dask.distributed import Client
from pandas import DataFrame

def chunk(s):
    return s.value_counts()

def agg(s):
    s = s._selected_obj
    return s.groupby(level=list(range(s.index.nlevels))).sum()

def finalize(s):
    level = list(range(s.index.nlevels - 1))
    return (
        s.groupby(level=level)
        .apply(lambda s: s.reset_index(level=level, drop=True).idxmax())
    )

def delayed_mode(ddf, groupby, col, custom_agg):
    return ddf.groupby(groupby).agg({col: custom_agg}).compute()

def main() -> DataFrame:
    client = Client('scheduler:8786')

    ddf = dd.read_csv('/sample/data.csv')
    custom_mode = dd.Aggregation('custom mode', chunk, agg, finalize)

    futures = []

    for col in multiple_trimmed.columns:
        future = client.submit(delayed_mode, ddf, ["a", "b"], col, custom_mode_dask)
        futures.append(future)

    ddfs = client.gather(futures)
    result = pd.concat(ddfs, axis=1)
    return result

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-2

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

并行化Dask聚合

并行化Dask聚合

使用dask在网络上广播的并行化功能的问题

PostgreSQL 9.6并行聚合

如何使用Numba + Dask适当地并行化通用代码

Dask的并行for循环比单核慢

并行运行MongoDB聚合

使用Dask并行过滤数据帧的块

分组多列并使用dask进行聚合

Dask Dataframe 是否有“产品”聚合？

聚合函数和行为 - 并行流

Camel Split 并行处理聚合消息

R：Foreach并行化

与OpenMP并行化-如何？

犰狳的并行化

并行化字典理解

依赖代码并行化

CPU内部并行化

并行化控制

如何并行化combn（）？

并行化功能

并行化随机森林

并行化熊猫循环

Perl脚本的并行化

PyMC的并行化

并行化组合python

并行化递归python

并行化shell脚本

并行化Bash FOR循环

SSE并行化

Python 并行化“async for”