LMT NEW PBS软件对作业排队运算的优势
LMT NEW PBS作业管理系统采用积极的调度策略优化资源的利用和减少作业的响应时间。LMT NEW PBS作业管理系统的资源和负载管理允许高级的参数配置:作业优先级(Job Priority)、调度和分配(Scheduling and Allocation)、公平性和公平共享(Fairness and Fairshare)和预留策略(Reservation Policy)。LMT NEW PBS作业管理系统的QoS机制允许资源和服务的直接传递、策略解除(Policy Exemption)和指定特征的受限访问。
当今行业中,对高效计算作业调度的背景:
1、技术革新频率加快
2、产业界需要快速的处理能力
3、传统高性能计算机性价比提高相对缓慢
4、中小服务器成本降低显著
5、集群技术日渐成熟
6、更多公司表现出了对利用这些技术优势的兴趣
7、不同客户对于计算处理能力的需求是没有上限的
一般的作业排队调度算法原理:
在作业调度这个过程中,总共有三中作业调度算法可供系统选择。排队等待时间最长的作业即是最先进入等待队列的作业;短作业优先算法是根据作业运行时间长短来衡量的;优先级调度算法分为静态优先权和动态优先权;响应比高优先算法其实也是一种优先级调度,其优先权权值相当于响应比,响应比等于作业响应时间除以作业要求服务的时间。所以在进行作业调度之前需要选定调度算法。
算法1:先来先服务(FCFS)算法
在提交作业后,该算法按每个作业的提交时间的先后顺序将作业插入到就绪队列(ready)中,在系统运行时总是优先运行排在就绪队列最前面的作业。
算法 2:最短作业优先(SJF)算法
在提交作业后,该算法按每个作业的所需要的运行时间长短依次将作业插入到就绪队列(ready)中,运行时间短的作业排在队列的前面,并优先运行。
算法 3:响应比高者优先(HRN)算法
在提交作业后,首先要根据公式:优先权=(等待时间+要求服务时间)/(要求服务时间)算出每个作业的优先级,然后根据作业的优先权的高低依次将作业插入到就绪队列中,优先权高的先运行。
LMT NEW PBS系统对作业查询的特点:
1、支持管理员和普通用户报表权限区分,管理员可统计所有数据,普通用户仅可统计自身数据
2、支持多种导出方式,PDF、EXCEL、HTML
3、支持多个字段的复合逻辑查询,字段包括时间、用户、关键字等,逻辑关系包括“与”、“或”
4、支持从不同的角度进行统计,用户统计、节点统计、作业统计、集群统计
5、提供总表和详表,方便汇报和对账
LMT NEW PBS作业运算调度系统执行一个作业的流程如下:
1、用户通过命令行或GUI方式提交一个作业给Server;
2、Server与Scheduler进行周期性的通讯,一旦Server中有可执行的作业,则Server会根据作业的需求通知Scheduler所要求的资源数和资源类型;
3、Scheduler与Moms进行通讯,探测每个资源所处的状态,然后告知Server什么资源是可用的,并通过自身的调整策略给作业分配所要求的资源;
被分配作业的Moms从Server处接受作业,把它放入执行对列中进行计算,并返回计算结果。
LMT NEW PBS系统中节点的类型:
1、用户节点(User Node)
用户节点是外部世界访问集群系统的网关。用户通常登录到这个节点上编译并运行作业。 用户节点是外部访问集群系统强大计算或存储能力的唯一入口,是整个系统的关键点。为了保证用户节点的高可用性,应该采用硬件冗余的容错方法,如采用双机热备份。至少应该采用RAID(Redundant Array of Independent Disks)技术保证用户节点的数据安全性。
2、 控制节点(Control Node)
控制节点主要承担两种任务: 为计算节点提供基本的网络服务,如DHCP、DNS和NFS; 调度计算节点上的作业,通常集群的作业调度程序(如PBS)应该运行在这个节点上。
通常控制节点是计算网络中的关键点,如果它失效,所有的计算节点都会失效。所以控制节点也应该有硬件冗余保护。
3 、管理节点(Management Node)
管理节点是集群系统各种管理措施的控制节点。管理网络的控制点,监控集群中各个节点和网络的运行状况。通常的集群的管理软件也运行在这个节点上。
4 、存储节点(Storage Node)
如果集群系统的应用运行需要大量的数据,还需要一个存储节点。顾名思义,存储节点就是集群系统的数据存储器和数据服务器。如果需要存储TB级的数据,一个存储节点是不够的。这时候你需要一个存储网络。通常存储节点需要如下配置:ServerRAID保护数据的安全性;高速网保证足够数据传输速度。
5、安装节点(Installation Node)
安装节点提供安装集群系统的各种软件,包括操作系统、各种运行库、管理软件和应用。它还必须开放文件服务,如FTP或NFS。
6 、计算节点(Computing Node)
计算节点是整个集群系统的计算核心。它的功能就是执行计算。你需要根据你的需要和预算来决定采用什么样的配置。理想的说,最好一个计算节点一个CPU。但是如果考虑到预算限制,也可以采用SMP。从性价比角度说,两个CPU的SMP优于3或4个CPU的SMP机器。 因为一个计算节点的失效通常不会影响其他节点,所以计算节点不需要冗余的硬件保护。
7 、集群中节点的部署 虽然由多种类型的节点,但并不是说一台计算机只能是一种类型的节点。一台计算机所扮演的节点类型要由集群的实际需求和计算机的配置决定。在小型集群系统中,用户节点、控制节点、管理节点、存储节点和安装节点往往就是同一台计算机,这台计算机通常成为主节点(Master Node)。在这种情况下,集群就是由多个计算节点和一个主节点构成。
LMT NEW PBS系统对作业的调度功能:
①、系统资源整合:异构资源,软硬件资源的整合;
②、任务综合管理:用户提交的任务的统一安排;
③、用户权限的管理:对用户进行各类权限控制;
④、资源管理器:管理集群的软硬件资源及认证信息等;
⑤、队列管理器:管理当前所有已提交但还未完成的作业;
⑥、调度器:为需要运算的作业分配计算资源。
LMT NEW PBS作业排队运算系统的优势:
1、实现了平台无关的单一系统映像,减小了用户的软件安装以及跨平台使用的学习成本。实现了对高性能计算的完美封装。
2、实现了对应用的性能提升。实现了对应用的高度优化,包括通信方式、网络连接等多种并行计算参数,为用户提供了计算性能的自动优化。
3、高容错性保障。实现了对用户输入、系统命令、文件权限、作业调度系统等多方面的检查与确认功能,提高用户作业的成功率。
4、基于web方式的提交。提交方式的限制,可降低用户操作难度,减少用户操作带来的系统不稳定因素,同时提高高性能和计算内部网络的安全性。
5、支持用户定制开发。
(数据结果查询方式)
(汇总分析查询方式)
(趋势分析查询方式)
结语
集群系统作为高性能计算的热点和主流,因此具有一个好的集群管理系统不但能大大方便用户的使用,而且能够极大的提高机群系统的利用率。LMT NEW PBS资源管理系统很好的实现了批处理作业管理的功能,并且能够对提交的组员进行很好的监控,能够极大提高系统的利用率。
LMT NEW PBS实现了企业范围的资源共享,它在任意的系统中可以为已授权的用户提供透明的作业调度,由任何本地、跨网域的远程客户系统提交作业。作业的相互依赖使用户能够在作业间定义很大范围的相互依赖,包括执行顺序、同步和在另一个指定作业(一系列的作业)的成功或者失败执行条件。安全访问控制列表允许管理员根据用户名、组、主机名以及网域来设置是否能够访问LMT NEW PBS系统。作业会计为分析每个用户、每个组、每个项目和每个计算机主机的使用或账目提供系统活动的细节日志。