发布于: Jun 1, 2023

数字化时代,IT 系统成为业务发展的载体,这意味着 IT 系统的可靠性和安全性直接影响到业务连续性。随着越来越多企业将 IT 系统迁移上云,云上系统的可靠性和安全性也成了工程师团队最关注的问题,大家都不希望大半夜被电话叫醒,查验问题,处理故障,并且快速恢复服务。当事件发生的时候,就是分秒必争,说是压力山大一点不为过。而这一切也许只是因为一个很小的变更,所引起的蝴蝶效应,而导致的系统混乱、故障或服务中断,从而影响了业务连续性。

云具有动态可靠性,需要定期演练和加固,以提供一个强大的安全状态。技术团队对网络、存储容量,底层系统等进行压力测试,然后执行故障切换,以模拟实际中断期间发生的情况,对业务影响情况进行测试是至关重要的。而一旦工作负载进入到云端,系统和数据就需要得到安全合规方面的保护,确保没有数据损失,符合规则要求,通过灾难恢复和备份服务来实现互补的可靠性,确保云上服务和资源的快速恢复。

云计算已经深入到企业方方面面,改变着企业应用的开发和运行方式。确保云的可靠性和安全性,是提供企业业务连续性重要方向。

为了提升系统的可靠性,通常有主动预防和被动响应两个方向,而混沌工程是非常有效的主动预防手段,实际上混沌工程在很多互联网或云计算公司都已经大规模采用。通过混沌工程,客户可以提前模拟可能出现的故障,进而综合验证服务在不同故障场景下的容错能力、监控能力、人员响应能力、恢复能力等可靠性能力。通过不断的实施混沌工程,防范于未然,驱动产品可靠性提升。

2008年8月 Netflix 的故障,导致了三天的停机,多个国家的大量用户受到影响。之后 Netflix 工程师逐步将系统迁移到亚马逊云科技上,运行在基于微服务的新型分布式架构。这种架构消除了单点故障,但也引入了复杂性,就需要更加可靠和高容错的系统。于是 Netflix 工程师创建了 Chaos Monkey ,会随机终止在生产环境中运行的 EC2 实例。通过主动注入故障,工程师可以快速了解正在构建的服务是否健壮,是否有足够的弹性,是否可以处理计划外的故障。至此,混沌工程开始兴起。

  • 2010 年 Netflix 内部开发了亚马逊云科技云上随机终止 EC2 实例的混沌实验工具:Chaos Monkey
  • 2010 年亚马逊自研混沌工程产品: Gremlin,结合 GameDay 成为可用性保障实践内容
  • 2012 年 Netflix 向社区开源由 Java 构建 Simian Army,其中包括 Chaos Monkey V1 版本
  • 2014 年 Netflix 开始正式公开招聘 Chaos Engineer
  • 2014 年 Netflix 提出了故障注入测试(FIT),利用微服务架构的特性,控制混沌实验的爆炸半径
  • 2015 年 Netflix 释出 Chaos Kong ,模拟亚马逊云科技区域(Region)中断的场景

想要了解更多有关混沌工程、高可用性及容灾设计方面的知识?欢迎您参加亚马逊云科技中国峰会 6 月 28 日下午《构建云上韧性系统论坛》,我们将与大家讨论云上架构的可靠性话题。

业务连续性也取决于保持云上的安全,对云计算持怀疑态度的人通常会指出各种缺乏安全性的顾虑,但事实上,云计算通常会比企业基础设施更安全,云供应商会提供更高规模的安全资源,也会有更多经验,保持基础设施的安全和运营。此外出海业务安全性,应对各国和地区对于数据安全、个人信息保护等方面严格监管,需要全方位的安全合规保护,使得跨境数据交互的复杂度呈指数级增长。出海企业的安全合规建设已经不再是"选修课”,而是"必修课”。从勒索软件防护,到零信任 Serverless 应用的安全构建,亚马逊云科技峰会将为您介绍全面的云上安全合规防护方案。

5 月 31 日亚马逊云科技宣布 Amazon Security Lake 正式可用,该服务可以自动将企业在亚马逊云科技上、SaaS 服务上、本地数据中心和其他云端的安全数据集中到专门构建的数据湖中,方便客户针对安全数据做出快速行动,并简化混合云及多云环境中的安全数据管理。

Amazon Security Lake 可将传入的安全数据加以转换,使之符合开放网络安全架构框架要求的格式(Open Cybersecurity Schema Framework,OCSF),可以让安全团队更轻松地自动收集、组合和分析来自亚马逊云科技、安全合作伙伴和分析服务提供商等 80 多个来源的安全数据。通过聚合并优化了大量不同的日志和事件数据,可以实现更快的威胁检测、调查和事件响应,使企业能用熟悉的分析工具,快速有效地解决潜在问题。

亚马逊云科技始终致力于帮助客户提升他们在云中的安全,不但获得全球数百万客的信任,包括对安全高度敏感的客户,并得到广泛的安全合作伙伴社区的支持。

亚马逊总裁兼首席执行官 Andy Jassy 曾指出:“安全是我们的 Job Zero。” 云安全性一直是亚马逊云科技的重中之重,并将安全作为一种文化贯穿在亚马逊云科技整个企业运营当中。本次中国峰会也会为您进一步解密亚马逊 “ Job ZERO ” 安全优先战略与实践、下一代云原生安全运营中心、2023 安全合规战略建设挑战和新思路等内容。

智能家居生态有很多不同品牌的设备,而相互之间无法连通。CSA 连接标准联盟(Connectivity Standards Alliance) 正式对外发布了 Matter 标准,目标是开发、制定一套智能家居连接标准,简化设备与设备之间传输信息的过程,同时强化对隐私安全的保护,从而提供更好的家居产品的实用性和体验性。其中设备认证证书(DAC)的数字证书,来验证智能家居网络中的设备是否已通过 Matter 认证。具有 Matter 认证的 IoT 设备可实现跨品牌的互联互通,目前已成为全球 IoT 物联网领域关注的焦点。

亚马逊云科技推出 Matter 公钥基础设施(Public Key Infrastructure, PKI)合规指导手册,帮助客户使用 Amazon Private Certificate Authority (Amazon Private CA) 证书服务构建符合 Matter 要求的 PKI 证书体系,加快客户 Matter 认证产品的推出。Matter PKI CP 不仅仅是个技术标准,它涵盖了人员、流程和技术。

Amazon Private CA 服务按需付费,大幅降低获得 Matter 认证的成本。同时可减少客户在搭建和运营符合 Matter 标准的 CA 系统上的工作量。

亚马逊云科技云上架构安全性,通过服务全球客户,拥有丰富的经验。亚马逊云科技中国峰会6月27日下午《云上安全战略论坛》和28日下午《云安全技术论坛》,将为大家详细介绍云上架构安全性话题。

云的稳定性始于关键业务的战略一致,以支持真正的韧性架构,并有一个强化的灾难恢复计划,以保证数据安全。技术架构至关重要,但在云上的架构也是一个不断优化的旅程。在亚马逊云科技中国峰会现场的技术展区,我们也设立了云上架构的讨论区,欢迎大家到现场与专家们沟通讨论。