使用 Amazon Redshift 从您的云数据仓库中获得最大价值
每天,客户都面临的挑战是如何管理不断增长的数据量和运营成本,以释放数据的价值,从而获得及时的见解和创新,同时保持稳定的性能。根据2022年IDC Global DataSphere报告的预测,预计到2025年,数据创建、消耗和存储将增长到175泽字节。
随着数据工作负载的增长,通过正确的治理来扩展和管理数据使用量的成本通常也会增加。那么,组织领导者如何以高性能、可控的成本和高安全性推动业务向前发展呢?有了正确的分析方法,这是可能的。
在这篇文章中,我们将探讨客户在不断增长的数据中面临的三个关键挑战,以及像
建立最优的数据系统
随着数据以惊人的速度增长,数据在数据存储、数据仓库和数据湖中的扩散可能成为一项挑战。组织内的不同部门可以将数据放置在数据湖或其数据仓库中,具体取决于该部门的数据类型和使用模式。团队可以将社交媒体源等非结构化数据放在他们的
一家公司在关键业务环境中管理对数据湖和仓库中的数十亿个数据点进行分析的典型例子是
借助 Amazon Redshift,纳斯达克能够查询其仓库并使用
纳斯达克软件工程副总裁罗伯特·亨特分享说:“在收盘到第二天早上这段时间内,我们必须加载和消耗300亿张记录。数据加载延迟了我们报告的交付。我们需要能够非常快速地将数据写入或加载到我们的数据存储解决方案中,同时不会干扰数据的读取和查询。”
纳斯达克的大规模数据增长意味着他们需要改进数据架构才能跟上步伐。他们在 Amazon S3 上为新的数据湖打下了基础,这样他们就可以使用 Amazon Redshift 作为计算层进行分析。纳斯达克的每日数据采集峰值达到1130亿条记录,他们完成报告的数据加载速度加快了5个小时,同时运行的查询速度提高了32%。
通过数据仓库和分析启用新角色
另一个挑战是让新的数据用户和角色具备强大的分析能力,以实现业务目标并执行关键决策。传统上,由数据工程师和数据库管理员来设置和管理仓库,而如今,业务线数据分析师、数据科学家和开发人员都在使用数据仓库来做出近乎实时的业务决策。
这些不具备专业数据管理或数据工程技能的人物不想关注分析系统的容量以处理不可预测或高峰的数据工作负载,也不想等待 IT 优化成本和容量。客户希望立即开始分析大量数据,并在不进行基础设施管理的情况下快速、经济地扩展分析。
以移动游戏公司
Playrix技术总监伊戈尔·伊万诺夫表示:“Amazon Redshift Serverless非常适合实现大规模查询所需的按需高性能。”
Playrix有双重业务目标,包括使用近乎实时的数据向最终用户(游戏玩家)进行营销,同时分析他们过去4-5年的历史数据。在寻求解决方案时,Playrix希望避免中断其他技术流程,同时节省更多成本。该公司迁移到了 Redshift Serverless,并扩大了规模,以处理过去 5 年来在 600 TB 上进行更复杂的分析,而所有这些都没有存储两个数据副本或中断其他分析工作。借助Redshift Serverless,Playrix实现了更灵活的架构,总共节省了20%的营销堆栈成本,从而降低了获取客户的成本。
“由于没有开销和基础设施管理,” 伊万诺夫分享道,“我们现在有更多的时间来试验、开发解决方案和规划新的研究。”
打破数据孤岛
组织需要轻松访问和分析各种类型的结构化和非结构化数据,包括日志文件、点击流、语音和视频。但是,这些范围广泛的数据类型通常存储在多个数据存储库的孤岛中。为了释放数据的真正潜力,组织必须打破这些孤岛,统一和规范所有类型的数据,并确保合适的人可以访问正确的数据。
数据统一可能会很快变得昂贵,需要花费时间和成本来构建复杂的自定义提取、转换、加载 (ETL) 管道,在系统之间移动或复制数据。如果操作不当,你最终可能会遇到数据延迟问题、不准确之处以及潜在的安全和数据治理风险。取而代之的是,各团队正在寻找无需移动数据或复制数据即可相互或与其最终客户共享交易一致的实时、第一方和第三方数据的方法。
Stripe是企业支付处理平台,是Amazon Redshift的客户,也是数千名需要访问Stripe数据才能应用的终端客户的合作伙伴。Stripe 构建了
采用亚马逊 Redshift 的现代数据架构
这些关于利用组织内孤立数据的最大价值并以具有成本效益的方式应用强大的分析来获得业务见解的故事之所以成为可能,要归功于亚马逊云科技为其客户提供现代数据架构的方法。在此架构中,亚马逊云科技 的数据仓库解决方案 Amazon Redshift 是一个完全托管的 PB 级系统,与 亚马逊云科技 数据库、分析和机器学习 (ML) 服务深度集成。成千上万的客户每天使用 Amazon Redshift 在云端运行数据仓库和分析,并处理艾字节数据以获得业务见解。寻求高性能、成本优化的云数据仓库解决方案的客户之所以选择 Amazon Redshift,原因如下:
- 它在性价比方面的领导地位
- 能够打破数据孤岛以获得有意义的见解
- 简易的分析功能可降低数据工程和管理需求
- 开箱即用的安全性和可靠性功能,无需额外付费
云数据仓库基准测试指标中的性价比仅定义为执行特定工作负载的成本。了解数据仓库的成本以及性能如何随着用户群和数据处理的增加而变化,对于围绕选择最佳数据仓库进行规划、预算和决策至关重要。
Amazon Redshift 通过优化仓库内的 亚马逊云科技 硬件、高
例如,Amazon Redshift 与
最后,客户不必为保护其关键数据资产支付更多费用。
结论
总体而言,选择 Amazon Redshift 的客户在新的现实中进行创新,即数据仓库会随着工作负载的变化自动向上和向下扩展,并最大限度地发挥其业务所有基石的数据价值。
对于像纳斯达克这样的市场领导者来说,他们每天能够摄取数十亿个数据点以进行高交易和高速度的出售,所有这些都可以在下一个工作日及时进行适当的计费和交易。对于像Playrix这样的客户来说,选择Redshift Serverless意味着通过近乎实时的全面分析向客户进行营销,而不会因为维护和开销而陷入困境。对于 Stripe 来说,这也意味着消除 ETL 的复杂性和总体拥有成本,消除孤岛并统一数据。
尽管数据将继续以前所未有的速度增长,但您的利润不必受到影响。尽管组织领导者面临着在所有类型的经济环境中解决成本优化的压力,但Amazon Redshift为市场领导者提供了一个在不影响其数据价值、性能和云数据仓库预算的情况下进行创新的空间。
作者简介
萨娜·艾哈迈德 是亚马逊 Redshift 的高级产品营销经理。她对人才、产品和通过产品营销解决问题充满热情。作为一名产品营销人员,她已将50多种产品推向市场,并在包括Sprinklr、PayPal和Facebook在内的多家不同公司工作。她的爱好包括网球、逛博物馆以及与亲朋好友进行有趣的交谈。
Sunaina Abdulsalah 领导亚马逊 Redshi ft 的产品营销。她专注于教育客户了解数据仓库和分析的影响,并分享 亚马逊云科技 客户故事。她在B2B技术和云计算领域的营销和GTM职能方面拥有深厚的背景。工作之余,她与家人和朋友共度时光,喜欢旅行。