群集技术
开放分类: IT、群集技术
就像冗余部件可以使你免于硬件故障一样,群集技术则可以使你免于整个系统的瘫痪以及操作系统和应用层次的故障。一台服务器集群包含多台拥有共享数据存储空间的服务器,各服务器之间通过内部局域网进行互相连接;当其中一台服务器发生故障时,它所运行的应用程序将与之相连的服务器自动接管;在大多数情况下,集群中所有的计算机都拥有一个共同的名称,集群系统内任意一台服务器都可被所有的网络用户所使用。一般而言,群集和高可用性结合的服务器可将运行提升至99.99%。群集技术不仅仅能够提供更长的运行时间,它在尽可能地减少与既定停机有关的停机时间方面同样有着重要意义。例如,如果使用群集,你可以在关闭一台服务器的同时,不用与用户断开即可进行应用,硬件,操作系统的"流动升级"。集群系统通过功能整合和故障过渡技术实现系统的高可用性和高可靠性,集群技术还能够提供相对低廉的总体拥有成本和强大灵活的系统扩充能力。
随着计算机技术的发展和越来越广泛的应用,越来越多的依赖于计算机技术的应用系统走进了我们的工作和生活。在给我们带来方便和效率的同时,也使得各行各业对于计算机技术的依赖程度越来越高。尽管随着计算机技术以日新月异的速度发展,单台计算机的性能和可靠性越来越好,但还是有许多现实的要求是单台计算机难以达到的。
高可用性集群,英文原文为High Availability Cluster, 简称HA Cluster,是指以减少服务中断(宕机)时间为目的的服务器集群技术。
随着全球经济的增长,世界各地各种各样的组织对IT系统的依赖都在不断增加,电子贸易使得商务一周七天24小时不间断的进行成为了可能。新的强大的应用程序使得商业和社会机构对日常操作的计算机化要求达到了空前的程度,趋势非常明显,我们无时无刻不依赖于稳定的计算机系统。
这种需求极速的增长,使得对系统可用性的要求变得非常重要,许多公司和组织的业务在很大程度上都依赖于计算机系统,任何的宕机都会造成严重的损失,关键IT系统的故障可能很快造成整个商业运作的瘫痪,每一分钟的宕机都意味着收入、生产和利润的损失,甚至于市场地位的削弱。
作为一个在高性能计算领域十多年的老兵,大概回答下
高性能计算是一个非常大的领域,总的来看,可以分为三个层面:
硬件层面,包括高性能网络,高性能处理器,高性能服务器,高性能存储器件等。高性能网络层面,目前超级计算机主要基于两种高性能网络,一种是Infiniband,一种是RoCE。高性能处理器层面,包括高性能CPU,如AMD、Intel的高性能服务器CPU。高性能协处理器,如NV的GPU,Intel之前的MIC等。国产的申威处理器也是高性能处理器。高性能服务器,主要是散热。因为机器性能高,功耗自然也就大,散热一般是大问题,目前国内在这块做的比较好的是曙光,PUE可以做到1.1以下。高性能存储器件发展也非常迅速,Intel的内存存储已经开始实用。但是存储因为他对计算性能影响有限,之前在高性能领域关注不是太多,随着AI对高性能计算的需求越来越强烈,而AI又是基于数据的,存储对于高性能计算的重要性在逐步体现。
基础软件层面,包括调度、存储、通信、编译、计算等各种基础软件。常用的调度包括slurm,PBS,存储包括Lustre、Gluster,通信如MPI,以及各种开源或者芯片厂商提供的编译、计算库,如blas库,fft库,稀疏矩阵计算库,元算子库等等。这些基础软件和高性能硬件一起,组成了高性能计算的核心部分,也是非常有技术挑战的部分。以及一些基础算法,如七个小矮人:结构性网格、非结构性网格、快速傅立叶变化、Dense Linear Algebra、Sparse Linear Algebra、粒子动力学、Monte Carlo。
应用软件层面,这个主要是高性能计算在各个行业的应用,比如前面同学提到的大规模科学问题、天气预报、生物制药、地形分析、数据挖掘、图像处理、基因测序、人工智能、密码破译、核爆模拟、飞机制造、量化交易等各个领域的应用。这些应用往往都需要有行业专家来参与,高性能计算的专家提供1,2提到的软件和基础库,行业专家一起,配合把行业对应应用进行并行化,进行性能优化,最后提供一个可以在超级计算机上大规模运行的软件。
以上3个层面,每一个层面都有大量的工作可以做,比如软件层面,其中任何一个方向,都值得深入。蓝海大脑主要是做计算,提供高性能的计算库,一个实验室上百人,就专门只做这个事情,为国产的、商用的处理器,提供高性能计算库,提出新的计算算法,提出新的优化方法。
高性能计算科学集群: 以解决复杂的科学计算问题为目的的IA集群系统。是并行计算的基础,它可以不... 集群系统,如 数据库集群,Application Server 集群,Web Server集群,邮件集群等等