亚马逊云科技助力猎豹移动构建实时数仓,构建近实时 Serverless 用户埋点数据分析体验
凭借亚马逊云科技端到端的 Serverless 数据分析解决方案,猎豹移动旗下的 App 用户埋点分析负载上的成本节省相较于之前减少 30%,成功构建实时数仓。猎豹移动,一家崛起于移动互联网时代的知名公司,是中国移动互联网公司出海的前沿者。猎豹移动所使用的的亚马逊云科技产品有 Amazon Redshift,Amazon Kinesis Data Streams, Amazon Lambda, Amazon S3, Amazon Redshift Query Editor v2.0 等。
概述 | 机会 | 解决方案 | 成果 | 使用亚马逊云科技服务
30%
成本节省
近实时数据分析
Amazon Redshift 流式摄取
概述
凭借亚马逊云科技端到端的 Serverless 数据分析解决方案,猎豹移动旗下的 App 用户埋点分析负载上的成本节省相较于之前减少 30%,成功构建实时数仓。猎豹移动,一家崛起于移动互联网时代的知名公司,是中国移动互联网公司出海的前沿者。猎豹移动所使用的的亚马逊云科技产品有 Amazon Redshift,Amazon Kinesis Data Streams, Amazon Lambda, Amazon S3, Amazon Redshift Query Editor v2.0 等。
机会 | 从数据中攫取机会
各类企业所管理的数据正在经历爆炸式增长。IDC 研究表明,2022 年到 2024 年三年间创建的数据量将超过过去 30 年创建的所有数据量,随着生成式 AI 技术的出现,更将进一步促进数据分析领域的高速发展。拥有数据对于企业来说是 “双刃剑”,在积累大量数据的同时,通过聚合数据进行深入挖掘分析,用数据来驱动业务,用数据来支撑决策、用数据来推动业务和商业模式创新、推动业务流程优化,进而实现降本增效,才是重中之重。而猎豹移动就是这条路上的先行者。
猎豹移动(NYSE:CMCM)成立于 2010 年 11 月,公司致力于 “在人机共存的世界里,用科技让生活更美好”。2014 年 5 月 8 日,在纽交所正式上市。当前,猎豹移动正在从移动互联网向以 AI 驱动的产业互联网进行战略升级,以安全工具 + AI 机器人场景为核心,构建覆盖工具应用、移动娱乐、人工智能、机器人等行业企业在内的猎豹生态。
猎豹移动与亚马逊云科技的合作由来已久,早在 2012 年,猎豹移动就将海外推出的移动应用 App Clean Master 运行在亚马逊云科技上。2023 年年初,猎豹移动在海外发布了全新应用程序,并将其相关数据发送到猎豹移动的分析系统中,该系统基于一家云服务提供商的自有数据库产品和分析工具搭建,猎豹移动的运营团队可通过直接查询原有数据库进行业务分析。
但随着用户数据量的不断增加、数据复杂度的不断上升,原有云供应商的数据分析架构暴露出了以下问题:第一,原数据库的计价模式是基于猎豹移动的运营团队和 BI 人员直接对数仓进行操作,而由于原有数据库的计价模式,该数据库产品是基于实际计算量和扫描量进行计费,而客户团队本身撰写查询语句的水平参差不齐,难以避免会出现浪费计算量和扫描量的查询语句,因此会造成成本不可控的风险。
第二,原数据库不能保证所有日志在一天内都会被摄取到数据库中,也无法保证实时摄入,当数据规模较大时,仅可以保证 T+3,也就是说当天的数据内容,只有在摄入 3 天之后才能保证当天数据都可以在数据库中查询到,无法实现 T+0 或近实时工作负载。此外,原数据库行数每日超过 2 亿行时,还可能会出现丢失日志的问题,这为猎豹移动应用的推进带来了很大的压力。
基于与亚马逊云科技建立的长久友好合作关系,猎豹移动将用户行为数据分析工作负载的迁移任务交到了亚马逊云科技手中。
利用亚马逊云科技用户埋点分析解决方案,迁移到以 Amazon Redshift Serverless 为核心的实时数仓后,该 App 团队在用户埋点分析负载上的成本节省相较于之前减少 30%。”
韩峰
北京猎豹移动科技有限公司技术总监
解决方案 | 利用 Amazon Redshift 流式摄取构建实时数仓
亚马逊云科技根据客户特点和需求,迅速构建了基于Amazon Redshift的无服务器数据分析解决方案,客户采用此解决方案进行PoC验证测试,测试结果显示,该解决方案可以解决猎豹移动的所有问题。自此,客户决定将他们的整个用户行为分析工作负载迁移到亚马逊云科技上。目前,猎户移动使用的亚马逊云科技产品包括 Amazon Kinesis Data Streams, Amazon Redshift Serverless, Amazon Simple Storage Service(Amazon S3),Amazon Lambda, Amazon Redshift Query Editor v2.0。
猎豹移动基于亚马逊云科技的系统架构示意图
保障数据完整性,实现海量数据量级的近实时分析能力
该解决方案通过将 Nginx 日志推送到 Vector 然后发送至 Amazon Kinesis Data Streams 中,并通过 Amazon Lambda 函数从 Amazon Kinesis Data Streams 中消化流式数据,运行 ETL 进程,并将处理后的数据存储在 Amazon S3 中,并通过 Amazon S3 再次触发第二个 Amazon Lambda 函数将数据复制到 Amazon Redshift 云数据仓库中。流式摄取可以帮助用户以极低延迟,在几秒钟内将数百 MB 数据摄取到 Amazon Redshift 云数据仓库集群,丢失数据的可能性大大降低。此外,该解决方案提供了新的近实时数据分析能力,这种流式数据使用方式,查询速度从原有的 “T+3” 级别的按天计算的数据查询,到现在的分钟级别,实现了指数级的性能提升。
从容应对动态负载且成本可控,尽在 Serverless
Amazon Redshift Serverless 是 Amazon Redshift Serverless 的无服务器版,作为一种快速、可扩展、安全且完全托管的云数据仓库,可从容应对动态工作负载。Amazon Redshift 可以帮助用户通过标准 SQL 语言简单、经济地分析各类数据,实现高达 3 倍的性能价格比,它不仅可以基于自身内部表进行数据分析,还可以查询 Amazon S3 中的数据, Amazon Redshift 与 Amazon S3 可以无缝结合,实现部分智能湖仓架构。针对于客户担心的成本问题,Amazon Redshift Serverless 版只需为数据仓库在活动时消耗的计算容量付费,并且客户可以根据 RPU(Redshift 处理单元)设置 Base 和 Max 指标,去控制数据仓库的性能和成本,从而实现高度成本可控。
数据分析师和数据工程师友好的查询编辑器
Amazon Redshift Query Editor v2.0 是一款基于 Web 的 SQL 客户端应用程序,可以使用它在 Amazon Redshift 数据仓库上创作和运行查询。客户可以选择使用图表直观显示查询结果,并通过与团队成员共享查询来进行协作。该编辑器支持一次运行多条 SQL 语句,并允许您在结果窗格的单独选项卡中查看每条语句的结果。不管是数据分析师或数据工程师,猎豹移动的团队成员都可以在查询中使用会话变量和临时表,此外,Amazon Redshift Query Editor v2.0 可以运行长时间运行的查询,而不必让浏览器窗口保持打开状态,稍后在 24 小时内检索结果。
成果 | 迁移后的全栈无服务器数据分析实现 30% 成本降低
更灵活、更易用的数据分析:通过亚马逊云科技 Serverless 无服务器数据分析解决方案,猎豹移动将批处理分析能力进一步拓展为近实时分析能力,并以低延迟高吞吐量的方式访问自己存储在数据仓库中的流式数据。
成本可控下的极致性价比:无服务器架构下的数据分析工作负载真正做到了极致性价比,Amazon Redshift 无服务器自动扩展功能便于我们利用 Amazon Redshift 的速度从容应对甚至是最为动态的工作负载,并且仅需按实际使用量付费。在客户预期未来将处理的每天 20TB 新日志时,数据摄取部分的成本比原有云供应商的解决方案更成本友好。“迁移到基于亚马逊云科技 Serverless 产品构建的实时数仓后,该 App 团队在用户分析负载上的成本节省相较于之前减少 30%。” 猎豹移动技术总监韩峰说。
坚持客户拥有和控制数据的理念,提供数据全生命周期加密保护:亚马逊云科技严格遵从客户拥有和控制数据的理念,因而,猎豹移动对自己的数据拥有完整控制权,可以用任何想用的方式管理私有数据。亚马逊云科技提供了复杂的技术和物理措施来防止未经授权的访问,并以超高的数据隐私和安全标准构建数据相关服务。此外,亚马逊云科技还提供数据全生命周期的加密服务,涵盖了数据的存储、传输以及使用各个环节。
此次 Serverless 数据库迁移只是猎豹移动和亚马逊云科技在该领域的初次尝试,在未来,猎豹移动将对之前的应用做逐步迁移,并计划将更多新的应用负载直接原生构建在亚马逊云科技上。
关于猎豹移动
猎豹移动(NYSE: CMCM)成立于 2010 年 11 月,由傅盛创建,致力于 “在人机共存的世界里,用科技让生活更美好”。2014 年 5 月 8 日,在纽交所上市。猎豹移动构建以 AI 为驱动的业务矩阵,覆盖工具软件服务、企业出海服务、AI 新零售服务三大板块,用 AI 赋能产业,努力成长为全球领先的 AI 产业互联网公司。
使用的亚马逊云科技服务
Amazon Redshift
Amazon Redshift 是一种运行速度快、使用广泛的全托管云数据仓库,其可以为您提供成本不到传统方案十分之一的数据仓库解决方案,您可以通过简单而经济高效的方式使用现有商业智能工具来分析所有数据,并将结果保存至数据仓储系统中。
开始使用
不同行业和规模的企业都在使用亚马逊云科技对其业务进行转型,以实现自身愿景。联系我们的专家,立即踏上您的亚马逊云科技之旅。