Spark 的特点
- 加持专注开发:借助 API 服务,应用 Spark 的架构者,更易于专注应用的计算本身,无需过多关注集群。
- 更快的速度:Spark 在处理海量数据时,可实现高效的执行速度。相比 Hadoop,Spark 的内存计算要快100倍。
- 更高通用性:Spark 提供统一的编程模型,支持多种编程语言,所提供库包括 GraphX, MLlib, Spark Core 等。
- 通用引擎属性:作为一个具有高兼容性的通用引擎,Spark 支持 ML, 文本处理等计算任务。
Spark 的用途
- 数据分析:通过对多种组件的综合应用,Spark 可支持数据建模师进行数据分析任务。路径上,Spark 可借助 Python, Scala 接口支持数据交互。
- 高频操作:基于迭代计算框架,Spark 可高效地处理大规模任务,所获取的效益与数据读取量成正比。
- 实时统计:在面对实时处理中小规模的数据体量时,可选择 Spark 来分析统计数据流的具体信息。
- 机器学习:Spark 提供机器学习库 Mllib 和机器学习 API,开发人员可以在大规模数据集执行分类、回归、聚类等任务。
如何优化 Spark 的性能

集群资源优化
在 Spark 的高频调度场景中,需要排除 Yarn 资源模式的申请延迟,通常需要单独架构 Standalone 环境。为明确资源上限,保障后续资源匹配,需要在初期进行压测。

使用广播变量
Exeutor 端在应用 Driver 变量时,可使用广播变量优化内存占用;否则,Driver 端就会生成大量副本。使用变量时,也需要提前确保 Exeutor 端的内容空间足够大。

优化数据结构
为高效利用存储空间,简化节点间的传输,优化数据结构十分必要。对具体代码进行优化,可直接提升性能。就不同的数据结构而言,建议尽可能用数组代替 Map 集合、用字符串代替对象。
欢迎加入亚马逊云科技培训中心
欢迎加入亚马逊云科技培训中心
-
快速上手训练营
-
账单设置与查看
-
动手实操
-
快速上手训练营
-
第一课:亚马逊云科技简介
本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。
亚马逊云科技技术讲师:李锦鸿第二课:存储与数据库服务
您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。
亚马逊云科技资深技术讲师:周一川第三课:安全、身份和访问管理
在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。
亚马逊云科技技术讲师:马仲凯 -
账单设置与查看
-
-
动手实操
-
立即注册,免费试用 Amazon EC2 T4g 实例
新老用户现可享受每月 750 小时的免费 t4g.small 实例使用时长,优惠期至 2025 年 12 月 31 日!
打开中国区账号注册页面
01 填写您 注册账号的邮箱,点击“继续”
02 查看您的 注册账号邮箱
注: 发件箱 no-reply@register.signin.amazonaws.com.cn
03 输入 邮箱中收到的验证码,点击“继续”
注: 该链接中的内容显示语言是与您的网页浏览器设置相一致的,您可以根据需要自行调整语言栏。

填写用户名密码
.04e59cc081d6b1b4de2e80dca972273ad0cd7ace.jpg)
填写账号联系人以及公司信息
01 填写公司联系人 姓名全称
02 填写公司联系人的 联系电话
03 填写 公司名称
注: 公司名称请务必与您所提供的营业执照公司名称保持一致
04 填写 公司办公地址
注: 省份/自治区/直辖市 - 城市 - 区 - 街道门牌号以及楼层信息 - 邮政编码
05 请选择 是否需要发票
注: *附件-申请发票流程 供您参考
06 点击查看 客户协议 勾选方框表示您已阅读,并同意客户协议的条款
.dcb511571e7913a6581f0ae803797a01c918ac61.jpg)
企业信息验证
01 在此上传 企业注册执照
02 请填写网络安全负责人的 姓名
注: 该字段务必与您下方提供的身份证号匹配或与证件上的姓名保持一致
03 请填写网络安全负责人的 联系方式
注: 有效的电子邮件地址 - 有效的中国内地 手机号码 - 座机号码(如无座机,请填写正确有效的手机号码)
04 在此上传网络安全负责人的 身份证件
注: 当您选择证件类型为“身份证”时,您需要填写正确的身份证号码,选择其他证件类型时,您需要上传证件扫描稿
.8252245bf937985f0b90aaa376899e8932e71a49.jpg)
手机验证与支持计划
.7122fd576282aebfbd9ed8927a918a378c59550d.jpg)