投稿指南
一、本刊要求作者有严谨的学风和朴实的文风,提倡互相尊重和自由讨论。凡采用他人学说,必须加注说明。 二、不要超过10000字为宜,精粹的短篇,尤为欢迎。 三、请作者将稿件(用WORD格式)发送到下面给出的征文信箱中。 四、凡来稿请作者自留底稿,恕不退稿。 五、为规范排版,请作者在上传修改稿时严格按以下要求: 1.论文要求有题名、摘要、关键词、作者姓名、作者工作单位(名称,省市邮编)等内容一份。 2.基金项目和作者简介按下列格式: 基金项目:项目名称(编号) 作者简介:姓名(出生年-),性别,民族(汉族可省略),籍贯,职称,学位,研究方向。 3.文章一般有引言部分和正文部分,正文部分用阿拉伯数字分级编号法,一般用两级。插图下方应注明图序和图名。表格应采用三线表,表格上方应注明表序和表名。 4.参考文献列出的一般应限于作者直接阅读过的、最主要的、发表在正式出版物上的文献。其他相关注释可用脚注在当页标注。参考文献的著录应执行国家标准GB7714-87的规定,采用顺序编码制。

作业调度软件在气象模式中的应用

来源:资源与产业 【在线投稿】 栏目:期刊导读 时间:2021-06-19
作者:网站采编
关键词:
摘要:引言 气象业务需要处理大量的数据,对计算机的计算能力等方面有着较高要求[1]。西北区域气象中心高性能计算集群中计算节点CPU总核数832个,峰值处理能力为25 TFlops,存储空间72 TB。

引言

气象业务需要处理大量的数据,对计算机的计算能力等方面有着较高要求[1]。西北区域气象中心高性能计算集群中计算节点CPU总核数832个,峰值处理能力为25 TFlops,存储空间72 TB。为了实现作业提交、调度和资源管理,西北区域气象中心高性能计算集群使用作业调度软件LoadLeveler来管理集群作业。LoadLeveler可以根据业务模式优先级、资源需求和资源的可用性对作业进行调度,并处理作业相关的管理、执行和记账,它为集群资源的最优化利用提供了动态调度和工作负载均衡的功能[2]。陈晓霞等指出LoadLeveler允许系统管理员对批处理环境进行完全控制并与操作系统紧密耦合集成以实现资源管理、抢占式调度、和记账等功能[3]。马骁等提出提高整个系统的资源利用率是高性能计算集群管理的核心,通过合理的使用调度算法协调各节点间的资源分配,提高系统的使用率和吞吐率[4]。

系统运行至今,较未采用调度软件LoadLeveler来管理集群作业前的月平均作业数、CPU利用率等指标有了大幅提升:月平均作业数2万余个,系统月 CPU 平均利用率达到40%左右,业务模式运行正点率满足国家局考核要求。随着模式预报精度的提高,模式规模也越来越大,所需资源迅速增加,如何利用LoadLeveler加强气象部门高性能计算资源管理,充分发挥气象部门高性能计算集群资源效益成为系统管理员要解决的重要问题。

1 技术思路

LoadLeveler集群由配置文件来定义,采用关键字格式。在配置文件LoadL_config中可以指定使用的admin文件的位置、定义cluster范围的配置参数、指定管理员、指定安装目录以及相关文件的存放位置、配置记账相关参数、包含调度器的调节参数等。在配置文件LoadL_admin中可以定义Machine的角色及相关配置参数、定义用户、组、队列、集群等。

系统管理员结合区域气象中心高性能计算资源总量和资源需求配置LoadLeveler文件关键字定义队列、设置调度算法和调度器调节参数等。除此以外,管理员通过编辑JCF(作业定义文件)指定作业运行参数、定义资源需求,利用命令行、脚本及API接口管理集群资源及运行的作业,将作业的处理需求与可用资源进行匹配。

2 LoadLeveler的作业管理

2.1 队列设置

气象模式可以为不同区域尺度的天气变化研究提供数据支撑[5],因此在天气预报中应用极为广泛。西北区域气象中心高性能计算机系统管理员在 LoadLeveler 中使用队列来对模式作业在资源上进行调度。队列是LoadLeveler用来决定程序该被分派到哪些节点(Node)运行,以及可使用多少CPU 时间的重要依据[6]。根据作业性质和优先级的不同,西北区域气象中心高性能计算机集群中队列的设置如表1所示。

表1 西北区域气象中心高性能计算机集群中队列划分队列名称优先级可使用节点CPU核数说明normal高业务作业队列normal1 低 普通作业队列normal2中准业务作业队列serial高264串行作业队列

管理员在满足区域级的数值预报业务/准业务需求的基础上,对业务研发/科研任务的资源需求进行统筹安排,对数值预报业务/准业务所需的计算资源按运行时段分配所需CPU核资源。西北区域气象中心现有6个业务/准业务模式(表2),业务应用峰值所需CPU核数512个,核算每天需要的计算资源量为 8864 CPU 核小时。

2.2 设置作业调度算法

LoadLeveler使用不同的调度器,由管理员在配置文件中指定。

(1)LL_DEFAULT调度器(默认调度器)。LL_DEFAULT调度器将作业在空闲资源上进行调度,根据任务负载情况启动、挂起或恢复作业。在调度并行作业时,节点在变为可用状态时都会被保留,所保留节点会一直保持空闲状态,直到有足够节点可以用来运行这个并行作业。这种机制在调度大型作业时,会导致系统总体利用率很低,造成资源浪费。

(2)API调度器。通过使用LoadLeveler API(应用程序编程接口)可以编写自己的API调度程序管理作业的资源分配和分派作业,API调度程序任务的主要接口是:ll_query、ll_get_data、ll_start_job_ext等。

表2 西北区域气象中心高性能计算机系统业务/准业务模式单位业务模式系统名称队列启动时间(国际时)结束时间(国际时)计算资源(CPU核)兰州中心气象台西北区域中尺度业务模式normal04:0016:0001:0004:0007:0005:3017:3002:3005:3008:兰州中心气象台西北区域快速更新循环同化预报系统normal10:0013:0016:0019:0022:3511:3014:3017:3020:3023:中尺度数值模式预报系统normal100:3003:干旱所中尺度数值模式智能网格预报系统normal112:3015:00192中尺度数值模式沙尘预报系统serial22:0001:00串行气象服务中心中尺度数值模式新能源预报系统normal116:0018:00192

文章来源:《资源与产业》 网址: http://www.zyycyzz.cn/qikandaodu/2021/0619/1610.html



上一篇:钙镁质磷矿选矿尾矿综合利用技术现状及展望
下一篇:新疆阿勒泰地区草原民居及其装饰艺术的田野调

资源与产业投稿 | 资源与产业编辑部| 资源与产业版面费 | 资源与产业论文发表 | 资源与产业最新目录
Copyright © 2018 《资源与产业》杂志社 版权所有
投稿电话: 投稿邮箱: