HPCC 高性能计算机集群
我们提供整合和经过严格测试的集群系统管理软件。 集群平台的系统结构是一个用于集群管理的标准 IP 网络,它独立于运算节点之间的数据传输网络。视乎不同并行应用对通信带宽bandwidth 和等待时间( latency )的要求,并行接口可以是快速以太网络、千兆以太网络、 bonded 以太网接口或 Myrinet 。 根据需要,集群的每个计算机节点可配置担当一个或多个不同的角色。 集群系统管理软件不仅能实现系统的并行安装,管理和同步节点的配置文件,提供系统远程运行命令,系统远程开机和关机,动态监视系统资源使用情况,而且还能监视系统的硬件状况,提供预警分析报告,帮助用户防患于未然,最大限度地保证系统的生产运行时间。同时,即使在硬件出现故障时,服务器也能提供快捷、方便的诊断工具,帮助快速查处问题所在,及时解决问题。
管理节点运行管理中心,系统操作员通过它来管理 HPCC 的操作。它也管理任务队列在集群上调度和提交并行计算任务。文件服务节点负责存储数据。 Image 服务器为 HPC 集群内部每一个节点管理 boot image 。网关控制对集群网络的访问并保护系统避免入侵。主节点 (Master nodes) 使集群用户能够向集群提交平行任务。最后,执行节点运行并行运算。
管理中心是用来观察 HPC 集群和控制其运转的一个安全的、便于使用的控制接口。经由集群管理节点上的 web 服务器,用户能通过任何一个标准的 web 浏览器使用多样的服务:
全部集群软件的安装,定制和更新。这保证了集群所有节点软件版本的一致性。
方便的集群网络服务管理。为了容易维护,我们把 HPC 集群内部的网络服务集中管理。这包括 NIS 配置、 NFS 装配点的配置,远程任务的执行以及其他网络服务配置。
集中的用户管理。管理员能够增加和删除用户帐户,以及设置这些帐户的访问权限。
实时的系统监测、分析和状态记录。管理员还可以合并所有信息并得到系统范围内并行应用运行状态的实时分析。
并行任务监控。通过这个接口,集群用户能够向集群提交任务。作业控制系统将会根据不同的配置政策调度任务。
系统配置的自动备份。这防止了系统的损毁。
由于采用标准、开放的系统平台,将来整个机群的扩展将会变得非常容易。通过增加计算节点,采用更高频率的处理器,系统的性能也得到进一步提升。而机群管理软件可以动态适应系统的扩充。这一切已经被 NCSA 和 TACC 等项目的成功实践证明是完全可行的方案。由于整个机群系统基于 Linux 操作系统,因此将来如果增加其他类型处理器或者系统架构平台的服务器,也可以方便地融入整个系统。 |