Yarn 资源调度框架

mac2025-08-15  9

目录(yarn)

本质(是什么)作用(干什么)架构(有什么)ResourceManager(RM)NodeManagerApplicationMaster(AM)Container资源容器 流程(怎么运作)优缺点优点缺点 常用(必会)常见问题(必知)异议

本质(是什么)

资源调度框架(是Hadoop2.X引入的)

作用(干什么)

主要作用:解决了mr1的缺陷() 将JobTracker和TaskTracker进行分离 解决了mr中JobTracker的单点故障问题 兼容spark等框架

架构(有什么)

ResourceManager(RM)

管理整个集群资源 RM:由 调度器(Scheduler)和应用程序管理器(Applications Manager,ASM)组成

NodeManager

启动完成后向RM汇报资源 管理一个 YARN 集群中的每个节点,做到资源隔离

ApplicationMaster(AM)

提交application的时候回创建(AM) 负责 分配和监控task 管理一个在 YARN 内运行的应用程序的每个实例

Container资源容器

是由 ResourceManager scheduler 服务分配的资源组成 容器授予ApplicationMaster使用特定主机的特定数量资源的权限 ApplicationMaster也是在容器中运行的

流程(怎么运作)

yarn的运行流程步骤

用户向yarn提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。ResourceManager为应用程序分配第一个Container,并与对应的nodeManager通信,要求它在这个Container中启动应用程序的ApplicationMasterApplicationMaster会向ResourceManager注册,这样用户可以通过ResourceManager查看应用程序的运行状态;然后ApplicationMaster会为各个任务申请资源,并监控的他们的运行状态,直至运行结束,重复步骤4~7步。ApplicationMaster采用轮询的方式通过rpc协议向ResourceManager申请和领取资源一旦ApplicationMaster申领到资源后,会与对应的nodeManager通信,要求它启动任务NodeManager为任务设定好运行环境,将任务启动命令写到一个脚本中,并通过运行脚本启动任务各个任务通过rpc协议向ApplicationMaster汇报自己的状态和进度,从而可以在任务失败的时候重启任务。在程序运行过程中,用户可以随时通过ApplicationMaster查看应用程序的当前运行状态应用程序完成之后,ApplicationMaster向ResourceManager注销并关闭自己。

优缺点

优点

扩展性 mr1中jobtracker负责的太多为瓶颈,所有mr1最多支持4000个节点的集群 yarn 却可以支持1万个节点,并行10万个task

可靠性 yarn的ResourceManager的职责比较简单,容易实现HA

并行性 mr1只支持MapReduce,yarn 支持更多的分布式Application

缺点

常用(必会)

# 生成 package.json 文件(需要手动选择配置) yarn init # 生成 package.json 文件(使用默认配置) yarn init -y # 一键安装 package.json 下的依赖包 yarn # 在项目中安装包名为 xxx 的依赖包(配置在 dependencies 下),同时 yarn.lock 也会被更新 yarn add xxx # 在项目中安装包名为 xxx 的依赖包(配置在配置在 devDependencies 下),同时 yarn.lock 也会被更新 yarn add xxx --dev # 全局安装包名为 xxx 的依 yarn global add xxx # 运行 package.json 中 scripts 下的命令 yarn xxx # 列出 xxx 包的版本信息 yarn outdated xxx # 验证当前项目 package.json 里的依赖版本和 yarn 的 lock 文件是否匹配 yarn check # 将当前模块发布到 npmjs.com,需要先登录 yarn publish

常见问题(必知)

异议

有差错或者需要补充的地方,还望大家评论指出,并详细论证,相互学习,共同进步哈!

最新回复(0)