
Hadoop作业调度的操作流程主要包含以下步骤:
1. 任务提交
用户通过命令行或者API把MapReduce任务发送至YARN(Yet Another Resource Negotiator)。YARN接收任务后构建一个ApplicationMaster进程。
2. 资源调配
ResourceManager掌控整个集群资源的分配与管理。ResourceManager依据任务需求及当前集群资源情况,为ApplicationMaster分配必需的资源(比如内存、CPU核心数等)。
3. ApplicationMaster初始化
ApplicationMaster在ResourceManager分配的资源上启动,并且开始与ResourceManager交互。ApplicationMaster的核心任务是协调和管控任务的运行。
4. 任务划分与指派
ApplicationMaster把MapReduce任务拆解为多个Map任务和Reduce任务。ApplicationMaster把这些任务分派给集群里的NodeManager节点。
5. 任务执行
NodeManager在接收到任务之后,在其管控的容器(Container)里启动任务执行。任务执行期间,NodeManager会监测任务的进展和资源使用情况,并向ApplicationMaster汇报状态。
6. 进展监控与异常恢复
ApplicationMaster定时查看任务的进展,如果某个任务失败或者长时间未完成,ApplicationMaster会再次安排该任务。ResourceManager也会监控ApplicationMaster的健康状态,如果ApplicationMaster崩溃,ResourceManager会重启一个新的ApplicationMaster。
7. 任务结束
所有Map和Reduce任务都成功完成后,ApplicationMaster会告知ResourceManager任务已完成。ResourceManager释放分配给ApplicationMaster的资源,并将任务状态更新为“已完成”。
8. 结果收集
ApplicationMaster负责搜集各任务的输出结果,并整合成最终的输出文件。用户可以通过命令行或API获取任务的输出结果。
调度机制
Hadoop提供了多种调度机制,包括:
FIFO(First In First Out):按任务提交的顺序进行调度。Capacity Scheduler:基于队列容量进行调度,支持多租户环境。Fair Scheduler:保证所有任务公平地共享集群资源。
参数设定
调度器的行为能够通过配置文件进行修改,例如:
百度作家平台
百度小说旗下一站式AI创作与投稿平台。
146 查看详情
yarn.resourcemanager.scheduler.class:指定所用的调度器类型。mapreduce.job.queuename:指定任务提交到的队列名称。
借助以上流程,Hadoop可以高效地管理和调度分布式计算任务,保障资源的有效利用以及任务的成功执行。
以上就是Hadoop作业调度是如何工作的的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/496006.html
微信扫一扫
支付宝扫一扫