您当前的位置:首页典型案例

超融合云服务平台

来源:金鼎重工有限公司时间:2021-12-13

一、企业简介

金鼎重工有限公司位于河北省武安市青龙山工业园区,占地2600多亩,员工4000余人,是一家集烧结、炼铁、炼钢、轧钢、发电于一体的综合性钢铁企业,铁、钢、材年生产能力达300万吨,主导产品中厚板、高速线材,主要应用于钢结构、建筑、工程机械、标准件等行业,连续多年荣膺“中国企业500强”、“中国制造业企业500强”、“河北省百强企业”榜单,2017年入选首批国家级“绿色工厂”。

公司通过了ISO 9001:2015质量管理体系、ISO50001:2011能源管理体系、OASAS 18001:2007职业健康安全管理体系、ISO10012:2003测量管理体系和ISO 14001:2015环境管理体系的认证。中板产品已获得国家锅炉、容器用钢板生产许可证,通过了CCS、BV、ABS等多国船级社认证和CE认证,同时金鼎普碳钢中厚板荣获国家优质产品称号,畅销全国并远销韩国、德国、意大利等国家和地区。

二、云计算典型应用案例

(一)案例概述

金鼎重工有限公司超融合云服务平台采用深信服超融合技术,将传统IT架构简化为只有“服务器+交换机”的大二层模式,通过分布式存储架构、主机多副本、HA、DRX/DRS智能调度技术等,保障平台自身99.999%的稳定性。同时采用一台存储实现数据容灾,超融合平台内嵌的CDP技术,将虚拟机快速恢复,当出现数据损害时,可将业务在短短的数分钟内完成拉起与恢复,为生产系统稳定运行增加一道保障。其aCloud架构将IT资源进行充分的整合与利用,保障设备管理平台业务、煤气报警仪平台业务、测试环境业务等各业务区域间的安全性,平台采用VxLAN的大二层技术对云环境下网络进行隔离划分,并辅以应用层防火墙,确保不同业务间的安全性。同时采用基于AI杀毒引擎的EDR安全工具,实现了整体业务的安全合规。出于TCO考量,平台的“大二层”极简架构与智能运维结合,大幅降低人力投入与设备采购的成本。

(二)主要作用

1)简化部署,加快业务上线时间

相对于传统物理机来说,超融合云服务平台属于一次性采购,随需所分,可以减少设备采购种类,缩短设备采购时间,大大简化了部署难度,加快了业务的上线时间。

2)降低了运维难度和成本

以前公司有多少种不同的硬件设备,就需要多少个不同专业的技术人员,采用超融合云服务平台后,系统管理难度降低,一个技术人员就可以轻松搞定,降低了运维的难度和成本。

3)提高了设备的可靠性和可用性

超融合云服务平台在设备故障方面要低很多,即使出现问题,解决起来也相对比较简单和快速,这就很好的提高了它的可靠性和可用性。

度,提供统一计算、存储、网络管理、运维平台,运维复杂度降低。

4)节省了成本

总成本(前期采购+后期运维)相比传统SAN存储架构的私有云降低50%以上,相比计算、存储(软件定义存储)分离架构降低30%以上.

(三)案例详情

 

1.背景:

金鼎重工原采用“一机一应用”模式,但随着承载业务的逐年增多,逐渐暴露一些平台的问题,包括:(1)业务系统到达一定规模以后,上线复杂缓慢,硬盘性能不能随着业务增多而提升,导致业务访问体验越来越差;(2)无法对平台、物理机、虚拟机运行状态实现监控,所以出现业务假死等情况时,需要从众多服务器中逐个排查,运维效率低下且影响业务;(3)平台的安全防护成了平台安全建设的当务之急。综合上述问题,同时考虑到硬件升级维护成本及云化趋势,金鼎重工有限公司希望通过引入一套稳定性、安全性强的国产云平台厂商解决上述问题。

 

2.上云实践:

1)需求分析:本次选择超融合云服务平台主要为了解决设备管理系统、质量管理系统、一氧化碳报警仪系统、数据库、测试环境等应用系统的环境搭建及安全稳定的问题,以上几个系统既需要满足内网用户访问又需要满足外网用户访问,所以,要求超融合平台在满足敏捷性、精细化匹配管理、智能运维的同时,还要保证平台安全、稳定、可靠。

2)可行性评估:此次平台的建设主要面临两种路径选择:传统“一机一应用”模式和超融合模式。“一机一应用”模式为传统IT架构,一台物理服务器上部署一个应用,CPU、内存、存储均比较独立,随着业务逐步深入和升级,对硬件资源性能要求越来越高,当物理服务器满足不了应用资源需求时需要重新更换物理服务器,造成重复投资和资源浪费。而超融合技术相对较新,近几年超融合已经在各种应用场景中验证了其稳定性和可靠性,由于超融合对主流数据库(比如Oracle、SQL Server,MySQL等)、ERP,以及其他企业关键应用等均有良好的支持;提供容灾与备份的支持,实现更高级别的的数据保护。所以超融合开始进入企业关键应用,并积累了大量实践案例,同时基于IO本地化、数据条带化、数据多点重构、全闪存等技术的出现,超融合实际上可以带来更直接和线性扩展的IO能力,数据恢复和网络安全能力。所以根据我们的调研判定,超融合可能是是未来数据中心建设的必然趋势。因此我们选定了超融合架构作为云平台建设的技术路线。

云平台服务商选择主要从以下层面进行考虑:a.产品稳定交付案例多,有大规模部署且同类型客户案例,基本选择国内市场前五的品牌;b.技术成熟先进,虚拟化技术被Gartner等权威机构认可;c.售后服务较好,可提供7*24h的应急服务。最终选定了深信服品牌。

3)上云方案设计:上云设计包含整体架构、资源规划。架构层面主要考虑架构的稳定性、安全性和高性能,考虑因素如下图所示:

 

 

在资源规划层面主要基于用户数、IO吞吐率、性能预留几个层面考虑。以用户数为基础进行并发量评估,综合软件厂商建议根据一系列的假设进行估算和分析,做出资源预估;同时考虑“集群N+1冗余”,主备集群非对称容灾等,尽可能做出性能和投资成本之间的均衡。

4)测试和部署:超融合云服务平台部署在智控中心机房,包含计算、存储、网络等超融合配置,同时部署多台服务器节点的超融合平台作为容灾备份系统,保持系统各功能程序实施同步备份,在故障发生时可实施开启相应备份服务器应急使用。

 

 

 

 

5)验证和总结:通过IT资源的全面资源池化,包括计算、存储、网络、安全和优化等基础资源,采用“软件定义机房”的超融合架构,并做了冗余部署及容灾机房建设。经过上线前的测试,超融合云平台确实具有良好的弹性扩展能力,新加入物理机时数据可以自动迁移和均衡,当有磁盘或物理机出现故障时可实现约15min/T的数据重建,确实能给予很好的技术信心;平台可以很方便的实现虚拟机的微隔离和安全扩展能力,后续可针对不同虚拟机业务设置不同级别的安全防护策略,保证数据和业务安全。同时,深信服超融合可以对业务健康发起主动探测,且可以大屏显示超融合平台的所有资源使用状况,非常地易用、易管理。

3. 应用成效:

1)成本降低:超融合云服务平台建设按照目前所需进行建设,并非像过去使用小机、服务器虚拟化那样直接采购3-5年硬件,增加企业成本;而是采用超融合这种IT架构可以实现线性扩容;IT资源有效共享、弹性供给,最大限度保护TCO成本的建设方式。而且,本次建设所采用的非对称式一体化容灾建设确实也比传统的多厂商容灾组合方式更加节约成本。

 

云平台实体机与虚拟机管理图

2)效率提升:新上业务系统需要硬件资源时,仅需几分钟即可在超融合管理平台上创建虚拟机,并分配计算、存储、网络、安全等资源。整个业务上线、调整到后续下线的全生命周期都可以很快的在管理平台上完成,实现敏捷管理。

3)业务扩展:由于底层架构整体采用“软件定义机房”的超融合架构,云底层基础设施只有交换机和x86服务器,管理运维极其简单;业务扩容,只需横向添加X86服务器就可以实现性能和容量的线性扩展,业务和架构扩展非常灵活方便。

 

云平台虚拟资源统一管理界面图

4)运维简便:深信服超融合架构能够实现物理资源的整合和调用,只需在超融合管理平台上用鼠标拖拽设备组件(如交换机、路由器、防火墙、服务器)就能构建真实的业务逻辑网络,网络调整都可以在管理平台上完成,无需再频繁的出入机房,让IT运维更简单。从而提升IT部门运营和运维效率从而将更多精力投入业务并提升业务价值,实现IT价值转型。

 

云平台在线备份策略界面

5)流程再造:传统架构时由于各种硬件之间是烟囱式的竖井结构,糖葫芦串式建设在网络、存储、计算的每一个节点都是单点故障风险节点,超融合架构在上述各个层面都做了池化和冗余,避免了单点故障的风险,也提高了业务平台的健壮性。

6)管理优化:对于信息工作人员,超融合云平台可以基于业务视角的界面展示、可视化运维和一键故障定位,无需学习成本,快速上手实现精细化运维;云平台具有大屏监控功能,实时监控服务器硬件、云平台、虚拟机、业务系统及数据库的监控状态,同时监控平台也支持将系统及硬件资源的异常情况及时短信或者邮箱同步通知管理员。

 

云平台在线管理主界面

7)资源整合:资源盘活、资源全面池化:伴随着业务系统的测试、上线、运行、高并发、高I/O等业务系统需求,通过软件定义的方式实现全新的IT基础架构,也就是通过服务器虚拟化将所有X86的计算资源池化、通过网络虚拟化构建出适合虚拟机迁移的大二层环境、最后通过存储虚拟化实现存储空间的融合。对于软件定义的数据中心,需要充分保障物理资源层、资源抽象与控制层和云服务层稳定性与安全性,并提供异地容灾备份服务。

 

云平台IO次数趋势分析功能界面图

8)节能减排:超融合架构可以实现超融合节点资源复用、共享从而提高资源利用率,大大节省硬件服务器台数数量,从而节省企业机柜、空调、电力、人力等投入;

9)稳定可靠:设备管理系统对数据安全可靠要求严格,超融合虚拟存储通过数据多副本机制及备份策略,数据分布在不同的物理节点上,形成冗余。任何一份数据损坏,都可以通过冗余数据快速进行恢复,从而低成本地实现存储的高靠性。通过HA、动态资源扩展等机制保证业务稳定性。

10)网络安全:对于东西向流量安全防护平台需具备分布式虚拟化防火墙,实现网络控制平面,可接收用户配置、拓扑变动、IP变动等消息动态调整配置并更新策略,实现业务东西向流量安全防护。