当我在本幻灯片中阅读延迟公平调度时,我对Hadoop中的“作业调度”和“任务调度”一词几乎不感到困惑。
如果我的以下假设有误,请纠正我:
当用户计划多个作业时,默认计划程序,容量计划程序和公平计划程序仅在作业级别有效。如果系统中只有一项工作,那么他们就不会扮演任何角色。这些调度算法构成“作业调度”的基础
每个作业可以具有多个映射并减少任务,它们如何分配给每台计算机?如何为一项工作安排任务?“任务计划”的基础是什么?
如果使用的是公平调度程序,则当有一个作业正在运行时,该作业将使用整个群集。当提交其他作业时,将腾出的任务插槽分配给新作业,以便每个作业获得大致相同的CPU时间。
与默认的Hadoop调度程序形成作业队列不同,它可以让短作业在合理的时间内完成,而不会使长作业饿死。这也是在多个用户之间共享集群的简便方法。公平共享也可以与工作优先级一起使用-优先级用作权重,以确定每个任务获得的总计算时间的比例。
该CapacityScheduler被设计为允许共享一个大集群,同时给予每一个组织的最小容量保证。中心思想是,Hadoop Map-Reduce集群中的可用资源在多个组织之间进行划分,这些组织根据计算需求共同为集群提供资金。组织还有一个额外的好处,即组织可以访问其他人未使用的任何多余容量。这以成本有效的方式为组织提供了弹性。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句