发布于: Jul 12, 2021

【摘要】利用 CloudEndure 可以方便的在 Amazon Web Services 不用区域之间,或者云下与 Amazon Web Services 云之间迁移或者灾备 Amazon Elastic Compute Cloud (EC2) 实例。CloudEndure 提供了基于 Web 的用户界面来管理项目、配置启动蓝图等。在实际使用中发现,当实例数量过多时,该界面有一定的局限性,一次只能针对一台实例进行配置,不能高效地对多台实例灾备配置进行批量处理。与此同时,就机型与盘型的选择而言,灾备的日常演练与容灾准备可以选配不同的规格,以降低演练成本。此项区分又增加了配置的冗杂程度。本文介绍云上灾备中心解决方案的云上灾备管理工具提供的新功能(以下简称系统),着力解决上述两个问题,从而提高管理灾备项目,特别是多实例项目的工作效率,减少运维强度和出错率。

去年我们曾推出云上灾备管理工具 1.0 版,着力于 Amazon Web Service 云上不同区域之间迁移和保护 EC2 实例。由于在 Amazon Web Service 云上不同区域作业,所以许多信息与配置得以方便获取。例如两区域之间的虚拟网 Amazon Virtual Private Cloud (Amazon VPC) 信息可以保持一致,实例机型与磁盘类型也可以复制源端。虽然某些机型并非所有区域都供应,但绝大多数情况下,这都不是问题。基于上述考虑,管理工具 1.0 版提供了不同区域之间虚拟网 VPC 的镜像复制功能,可以原封不动地把 VPC 复制到另一区域,作为灾备着陆区使用。

当涉及云下到 Amazon Web Service 云上灾备建设与演练时,由于源端不是 Amazon Web Service 云,因此诸多信息缺失,需要逐一确认。一份实例启动蓝图的配置,一般至少需要以下基本信息:

  • 子网类型及其地址
  • 安全组
  • 机型
  • 磁盘类型

复杂的启动蓝图配置还会涉及更多的信息。限于篇幅,本文从上述变量入手简化运维强度。其他复杂信息的配置留待工作展望中实现。上述变量粗略地可以分为两类,即网络安全类和硬件型号类。网络安全类设置并没有成本多寡方面的顾虑,因为在虚拟网中选择和使用子网以及安全组,所产生的收费只有一种。而对于硬件型号来说,则有多种选择,且收费不一。针对日常演练,可以选择经济型低配型号,节约成本。对于灾备准备,则可以选择生产用高配型号,保证性能。为了满足定期日常演练和灾备准备的不同需求,需要在经济型与生产用之间经常切换。如果所涉实例较多,在 CloudEndure 控制台上进行切换,显然比较繁琐与低效,且容易出错。

问题描述

具体来说,针对某项配置,需要在界面首先登录 → 选择相应项目 → 选择机器 (Machines) → 点击某一个待配置机器 → 选择蓝图 (Blueprint),之后在蓝图众多选项中具体配置。到目前为止,需点选共 5 步。在同一个项目内,如果有 n 台实例需要配置,光是点击进入配置界面,就需要操作 3n 步。

  • 针对子网,需要首先在子网中选择既有子网。通常会区分公网或者私网。公网通常有路由到互联网网关 IGW,私网需要连网的,有路由到网络地址转换网关 NAT。其次,需要在私网地址 (Private IP) 中选择自定 (Custom),然后输入一个属于所选子网网段,且可用的 IP 地址。此处需点选 5 步。
  • 针对安全组,需要在安全组 (Security Groups) 中勾选适用的安全组。此处需点选至少 2 步。本文提供了两种方法来提高安全组勾选的效率,分别是标签标记法和批量勾选法。
  • 针对机型,CloudEndure 会根据源端内核与内存大小计算推荐值。但是没有有效解决成本控制的问题。本文提供一个简单的算法推荐不同应用场景下的机型,同时也让用户自行选择目的区域所提供的任一机型。此处需点选 2 步。但是机型多杂,选择费力。
  • 针对盘型,不同类型的Amazon Elastic Block Store (EBS) 块存储设备价格不同,提供的吞吐量和性能也各异。不过就测试而言,最基础的类型 standard 大多数情况下也足够应付。本文提供简单的两种盘型选择方案。此处需点选至少 2 步,取决于卷数量。

本文要解决的问题,就是尽可能减少,甚至完全消灭上述步骤。

成本控制

  • 对于机型来说,经济型机型在 t2.micro, t2.small, t2.medium, t2.large 中选择,最高为 t2.large。生产用机型则没有特别的限制,根据源机的内核与内存在 m5 系列中选择可以满足性能要求者。如果还不够,则可以在列表中选择目的区域提供的任一机型。
  • 对于盘型来说,经济型盘型选用STANDARD,生产用盘型选用 SSD (gp2)。


局限性

本文所讨论的系统,并不旨在完全取代 CloudEndure 控制台用户界面,亦不试图保证对该控制台界面所涉配置参数的全面覆盖。旨在特定运维条件下,最大化降低运维强度,提高工作效率。当然,云上灾备管理工具会持续扩展新功能,使得云上灾备管理更为便捷与高效。全消灭上述步骤。

相关文章