发布于: Nov 30, 2022
【概要】CloudEndure Disaster Recovery 可以通过快速而可靠地将物理机、虚拟机和基于云的主机恢复到 Amazon 云区域,能最大限度地帮助客户缩短停机时间并减少业务中断损失,同时显著降低灾难恢复基础设施的成本。
云上灾备的明星产品 CloudEndure
系统灾备上云是企业发展的趋势,为降低灾害所导致的损失,不少企业选择将自身的数据等信息迁移至云。比如,CloudEndure Disaster Recovery 可以通过快速而可靠地将物理机、虚拟机和基于云的主机恢复到 Amazon 云区域,能最大限度地帮助客户缩短停机时间并减少业务中断损失,同时显著降低灾难恢复基础设施的成本。CloudEndure Disaster Recovery 会将您的机器(包括操作系统、系统状态配置、数据库、应用程序和文件)持续复制到目标 Amazon Web Services 账户和指定区域的低成本暂存区。当发生灾难时,您可以指示 CloudEndure Disaster Recovery 在数分钟内自动启动数千台处于完全预置状态的机器,只有在实际的容灾切换或演习中,您才需要为启动的预置工作负载付费。
CloudEndure Disaster Recovery 支持多种容灾需求:
- 本地数据中心到 Amazon Web Services 区域的容灾
- 其他公有云到 Amazon Web Services 区域的容灾
- Amazon Web Services 不同区域之间的容灾
CloudEndure Disaster Recovery方案的主要特点:
- 操作简单,自动化程度高,降低了容灾的复杂度
- 广泛的适用性,可以支持物理主机、虚机和云主机,以及各类企业软件和操作系统
- 支持秒级的恢复点目标 (RPO) 和分钟级恢复时间目标 (RTO),降低业务中断的损失
- 云上基础设施高可靠,确保容灾切换时能及时接管业务运行
- 数据复制时占用云端的资源少,云上资源按需使用,有效降低容灾方案的成本
- 演练不中断复制
CloudEndure Disaster Recovery 方案架构:
CloudEndure 提供了强大与丰富的灾备恢复能力,符合其云上灾备明星产品的称号。但是如果需要完美衔接我们在上面提到的三个维度,往往在实际整体灾备方案中,我们还需要引入更多的技术方案。如果把灾备比喻为一场电影,那么除了主角,我们还需要配角,导演以及整个剧组的支持。
拥抱多元,追求极致
在某些场景下,相对于 CloudEndure,存在更加有利于降低成本的复制方案:
- 比如源端磁盘体量巨大而实际使用率很小,那么使用 CloudEndure 并不是成本最优的,使用基于文件系统的复制或者数据库复制是成本更优的选择。
- 如果数据库磁盘写入量巨大,使用 CloudEndure 将对承载复制流量的带宽产生巨大考验,而此时引入数据库复制技术能够有效降低写放大率,缓解整体带宽需求。
对于某些对 SLA 要求不高的灾备场景,选择备份复制也将是一个能够帮助降低总体成本的有效手段。
不过我们坚定地认为,最具竞争力的云上灾备解决方案必然是以 CloudEndure 产品为核心的灾备框架基础上引入多元的灾备技术,其结果是找到一个在满足客户 SLA 要求与总成本支出之间寻求平衡的最优解。
当然随着更多不同复制技术的引入,无疑将加深灾备方案的深度这一维度,并对灾备效率产生影响。深度与效率的博弈其根本原因在于“人工”这一因素,这体现在使用“人工”来执行大量繁复的流程。然而,即使是一个训练有素的运维工程师在独自面对规模庞大、技术方案多样的灾备场景时也会感到束手无策,而构建一个能够支持如此体量灾备场景的团队对运维成本却并不友好(请参考灾备的三个维度)。与此同时,深度带来的演练难度与运维成本也不可避免地成为了企业进行周期性大规模灾备演练的阻力,如果方案本身不具备不中断复制的演练能力,无疑将更增强这一阻力。
更多元的技术/更广的灾备范围→增加的灾备深度→更低的效率→更少的演练→更多的不确定性,这不是一个良性的演进。墨菲定律告诉我们,不好的事情总会发生,其于灾备,往往意味着:没有经受检验的灾备恢复流程会在真实灾备切换发生时将所有问题暴露出来。而我们知道,比没有灾备更糟的情况是拥有一个无法在关键时刻成功运转的灾备系统。
在电影拍摄过程中,导演与编剧的重要性不亚于主角,同样的,在云上灾备场景中,我们拥有多种多样的云原生产品可以帮助我们对灾备流程进行自动化编排,如 Amazon Step Functions、Amazon Systems Manager、Amazon Lambda 等,借助这些服务,客户将有机会实现灾备演练/切换的自动化。
这种自动化能力体现在
- 无缝的流程衔接 – 非阻塞的任务、无损的流程推进
- 无处不在的并发处理 – 系统并发、流程并发、任务并发正
是自动化的引入,使得灾备方案兼顾深度和效率不再只能通过加大人力投入实现。如此一来,云上灾备就不用像传统灾备一样在三维度(深度,效率,降本)中做取舍,将云上灾备的优势发挥到极致。
相关文章