本页面中描述的服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国区域的亚马逊云科技服务入门页面。中国区域的亚马逊云科技服务入门页面中,仅关于特定服务的“区域可用性”和“功能可用性和实现差异”的部分(但不包括其通过超链接援引的内容)构成您与光环新网或西云数据之间就您使用亚马逊云科技中国(北京)区域或亚马逊云科技中国(宁夏)区域服务达成的协议(“协议”)项下的“文档”的一部分,而该入门页面的其他内容不构成“协议”的任何部分。
Amazon Redshift 文档
Amazon Redshift旨在通过大规模的云数据仓库使您快速获取见解。
分析
专注于快速获得数据洞察,并交付业务成果,而无需担心管理数据仓库。
Amazon Redshift Serverless
Amazon Redshift Serverless是Amazon Redshift无服务器选项,旨在方便运行并进行扩展分析,无需设置和管理数据仓库基础设施。借助Redshift无服务器,任何用户(包括数据分析师、开发人员、业务专业人员和数据科学家)均能通过加载和查询数据仓库中的数据来获得数据洞察。
Query Editor v2
使用SQL使数据分析师、数据工程师和其他使用基于web的分析师工作平台的SQL用户更易于访问您的Amazon Redshift数据和数据湖,以此进行数据探查和分析。Query Editor v2允许您通过一次单击可视化查询结果、创建模式和表格、可视化加载数据,以及浏览数据库对象。还提供编辑器,用于编写及共享SQL查询、分析、可视化和注释,并与您的团队安全地分享。
表格设计
Amazon Redshift旨在监控用户工作负载,并使用精密的算法寻找改善数据的物理布局以优化查询速度的方法。自动表格优化旨在选择最佳排序键和分布键以优化集群工作负载的性能。如果Amazon Redshift确定应用键可以提高集群性能,会将表进行更改,而不需要管理员干预。使用其他功能,例如自动Vacuum Delete、自动表格排序和自动分析,无需再对Redshift 集群进行手动维护和优化就能使新集群和生产工作负载达到最佳性能。
使用您自己的工具查询
Amazon Redshift为您提供了在控制台内运行查询或连接SQL客户端工具、库或数据科学工具(包括Amazon Quicksight、Tableau、PowerBI、QueryBook和 Jupyter Notebook)。
与Amazon Redshift交互的API
Amazon Redshift旨在让您能够访问所有类型的传统、云原生和容器化无服务器Web服务型应用程序以及事件驱动的应用程序中的数据。Amazon Redshift Data API可以通过Amazon软件开发工具包(例如Python、Go、Java、Node.js、PHP、Ruby和C++)支持的编程语言和平台简化数据的访问、摄取和传出。Data API可帮助您无需再配置驱动程序和管理数据库连接。您只需调用Data API提供的安全API终端节点,即可对Amazon Redshift集群运行SQL命令。Data API负责管理数据库连接和缓冲数据。Data API是异步的,因此您可以随后检索结果。您的查询结果可存储24小时。
容错
拥有多种可提高数据仓库集群可靠性的功能。例如,Amazon Redshift旨在持续监控集群的运行状况,并自动从出故障的驱动器重新复制数据,同时根据需要替换节点以实现容错。集群还可以重新定位到备选可用区(AZ)。
分析您的数据
通过运营数据库、数据湖、数据仓库和第三方数据集,对数据进行实时和预测性分析,获得综合洞察。
联合查询
借助Redshift新推出的联合查询功能,您可以查询操作型关系数据库。跨一个或多个Amazon Relational Database Service(RDS)和Aurora PostgreSQL查询实时数据,可了解完整的业务运营,而无需移动数据。您可以对Redshift数据仓库、数据湖以及运营商店中的数据进行整合,从而制定更好的数据驱动型决策。Redshift旨在提供优化以减少通过网络移动的数据量,并且支持并行数据处理,可以实现高性能查询。
查询数据以及将其导入和导出数据湖
您可以使用熟悉的ANSI SQL直接在S3中查询开放文件格式,例如Parquet、ORC、JSON、Avro和CSV等。要将数据导出到数据湖,您可在SQL代码中使用Redshift UNLOAD命令,并将文件格式指定为Parquet,Redshift就会处理数据格式并将其移动至S3。这种设计旨在使您可以灵活地将高度结构化并且经常访问的数据数据存储在Redshift数据仓库中,同时将结构化、半结构化和非结构化数据保留在S3中。将数据从Redshift导回到数据湖后,您可以使用Amazon Athena、Amazon EMR和Amazon SageMaker等亚马逊云科技服务来进一步分析该数据。
亚马逊云科技服务集成
与亚马逊云科技分析、数据库以及机器学习服务的本地集成,使其更容易处理端到端分析工作流程。例如,Amazon Lake Formation这项服务可以在几天内建立安全的数据湖。Amazon Glue可以将数据提取、转换和加载(ETL)到Redshift中。Amazon Kinesis Data Firehose可帮助您获取、转换串流数据并将其加载到Redshift 进行分析。Amazon EMR旨在通过使用Hadoop/Spark 处理数据,并将输出加载到Amazon Redshift中用于BI和分析。Amazon QuickSight是一款BI服务,可以用于针对Redshift数据来创建报告、可视化和控制面板。您可以使用Amazon Redshift准备数据,从而使用Amazon SageMaker来运行机器学习(ML)工作负载。为了加速向Amazon Redshift的迁移,您可以使用Amazon Schema Conversion Tool和Amazon Database Migration Service (DMS)。Amazon Redshift还与Amazon Key Management Service(KMS)和Amazon CloudWatch深度集成,可以实现安全性、监控和合规性。您还可以使用Lambda用户定义函数(UDF)从SQL查询调用Lambda 函数,就像在Redshift中调用User Defined Function那样。您可以编写Lambda UDF与Amazon合作伙伴服务集成并获取其他流行的亚马逊云科技服务,例如Amazon DynamoDB或Amazon SageMaker。
合作伙伴控制台集成
您可以通过在Amazon Redshift控制台中与特定合作伙伴解决方案集成,加快数据上线速度并创建业务洞察。通过这些解决方案,您能以高效和简化的方式将应用程序中的数据引入到Redshift数据仓库中。它还使您能够连接这些数据集并将它们一起进行分析,从而产生洞察。
数据共享
Amazon Redshift数据共享可以通过在Redshift集群之间共享实时数据来帮助您扩展。数据共享旨在通过提供对任何Redshift集群内数据的快速、精细和高性能访问,而无需复制或移动数据,从而提高组织的灵活性。数据共享旨在提供对数据的实时访问,以便用户可以在数据仓库中更新信息时查看信息。您可以在相同或不同的亚马逊云科技账户中以及跨区域与Redshift集群共享实时数据。
Amazon Data Exchange for Amazon Redshift
从您自己的Redshift集群中查询Amazon Redshift数据集,无需提取、转换和加载(ETL)数据。您可以在Amazon Data Exchange中订阅Redshift云数据仓库产品。提供者更新时,订阅者可以看见该等更改。如果您是数据提供者,则在订阅开始时授予访问权,在订阅结束时撤销访问权,在付款到期时自动生成发票,并通过亚马逊云科技服务收取费用。您可以授权访问平面文件、Amazon Redshift中的数据以及通过API提交的数据,所有内容可以一次订阅。
Redshift机器学习
Amazon Redshift机器学习旨在使您可以使用SQL语句在其Amazon Redshift数据上创建和训练Amazon SageMaker模型,然后将这些模型用于预测,例如直接在查询和报告中进行流失检测、财务预测、个性化和风险评分。
高级分析的本地支持
Amazon Redshift支持标准标量数据类型,例如 NUMBER、VARCHAR和DATETIME,并可为以下高级分析处理提供本地支持:
- 空间数据处理:Amazon Redshift提供GEOMETRY这种多态数据类型,可以支持Point、Linestring和Polygon等多种几何形状。Redshift还提供各种空间SQL函数,用于构造几何形状、导入、导出、访问和处理空间数据。您可以在Redshift表中添加GEOMETRY列,并编写涵盖空间和非空间数据的SQL查询。这一功能让您可以存储、检索和处理空间数据,并能将空间数据集成到分析查询中,从而提高业务洞察力。借助Amazon Redshift的查询数据湖的功能,您还可以将外部表集成到空间查询中,从而将空间处理轻松扩展到数据湖。
- HyperLogLog草图:HyperLogLog 是一种新算法,可以有效地估算数据集中不同值的近似数量。HLL草图是一种用于封装数据集中不同值的相关信息的结构。Redshift提供了数据类型HLLSKETCH和相关联的SQL函数,以生成、保留和合并HyperLogLog草图。Amazon Redshift的HyperLogLog功能使用偏差校正技术,并旨在以较低的内存占用量提供高准确度。
- DATE和TIME数据类型:Amazon Redshift旨在提供多种数据类型:DATE、TIME、TIMETZ、TIMESTAMP和TIMESTAMPTZ,以在本地存储和处理日期/时间数据。TIME和TIMESTAMP类型存储时间数据而不包含时区信息,而TIMETZ和TIMESTAMPTZ类型存储包含时区信息的时间数据。您可以使用各种日期/时间SQL函数处理Redshift查询中的日期和时间值。
- 半结构化数据处理:Amazon Redshift SUPER数据类型旨在本地将JSON和其他半结构化数据存储在Redshift 表中,并使用PartiQL查询语言处理这些半结构化数据。SUPER数据类型本质上是无schema的,它允许存储可能包含Redshift标量值、嵌套数组和嵌套结构的嵌套值。PartiQL是SQL的扩展,可提供强大的查询功能,例如对象和数组导航、数组解嵌套、动态输入和无schema语义。此功能使您能够实现高级分析,将经典的结构化SQL数据与具有卓越性能且灵活易用的半结构化SUPER数据相结合。
与第三方工具集成
您可以使用行业领先的工具并与专家合作,以便对数据进行加载、转换和可视化,从而改进Amazon Redshift。Amazon合作伙伴已认证其解决方案可以与Amazon Redshift配合使用。
性能规模化
通过优化提高查询速度,获得优于其他云数据仓库的性价比。
RA3实例
RA3实例旨在提高需要大量计算容量的性能密集型工作负载的处理速度,而通过指定所需的实例数量,您可以灵活地为计算容量单独付费。
Amazon Redshift高级查询加速器(AQUA)
高级查询加速器(AQUA)是一种新型分布式硬件加速缓存,通过增强某些类型的查询,使Redshift加速运行。高级查询加速器使用固态存储、现场可编程门阵列(FPGA)和Amazon Nitro来加速扫描、过滤和聚合大型数据集的查询。高级查询加速器包含在Redshift RA3实例类型中。
存储和查询处理
Amazon Redshift旨在为不同大小的数据集提供快速查询性能。列式存储、数据压缩和区域映射降低了执行查询所需的I/O数量。除了LZO和Zstandard等编码之外,Amazon Redshift还针对数字和日期/时间类型提供了专门构建的压缩编码AZ64,能够节省存储空间并优化查询性能。
并发性
Amazon Redshift旨在始终保持快速性能,即使存在数千个并发查询,无论在Amazon Redshift数据仓库中查询数据,还是直接在Amazon S3数据湖中查询数据。Amazon Redshift并发扩展功能可以在并发量升高时增加瞬态容量,从而支持大量并发用户和并发查询。
具体化视图
Amazon Redshift具体化视图旨在帮助您提升迭代或可预测性分析工作负载(如控制面板生成、来自商业智能(BI)工具的查询以及提取、转换和加载(ELT)数据处理作业)的查询性能。您还可以使用具体化视图轻松存储和管理可能引用一个或多个表(包括外部表)的SELECT语句的预计算结果。引入具体化视图的后续查询会通过重用预先计算的结果来加速运行。Amazon Redshift旨在以递增方式维护具体化视图,从而持续提供低延迟性能优势。
自动具体化视图
自动具体化视图(AutoMVs)通过自动刷新、自动查询重写、增量刷新和持续监控Amazon Redshift集群来提高查询吞吐量、降低查询延迟、缩短执行时间。Amazon Redshift在AutoMV的创建和管理与资源利用率之间取得平衡。
使用机器学习提高吞吐量和性能
Amazon Redshift中的高级机器学习功能可以在工作负载或并发用户活动各不相同的情况下提供高吞吐量和高性能。Amazon Redshift基于传入查询的运行时间和资源要求,利用复杂的算法来对其进行预测和分类,从而动态管理性能和并发性。短查询加速(SQA)会从控制面板等应用程序中将短查询发送到快速队列进行即时处理,而不会将其排在大量查询之后。自动工作负载管理(WLM)使用机器学习来动态管理内存和并发性,有助于提高查询吞吐量。此外,您现在也可以轻松设定最重要的查询的优先顺序。Amazon Redshift还被设计成为一种观察用户工作负载的自我学习式系统,能够在使用量增长时确定提升性能的机会、无缝应用优化,并在需要用户操作时通过Redshift Advisor提供建议,以便进一步提升Redshift的性能。
结果缓存
Amazon Redshift使用结果缓存来为重复查询实现快速响应时间。执行重复查询的控制面板、可视化和商业智能工具的性能得到大幅提升。在执行查询时,Amazon Redshift会对缓存进行搜索,看看是否有之前运行的查询的缓存结果。如果找到缓存结果且数据没有变化,会立即返回缓存结果,而不会重新运行查询。
大规模数据仓储
Amazon Redshift设计简单,可根据您的需求快速扩展。只需在控制台中单击几下或进行简单的API调用,您就可以更改数据仓库中的节点数量或类型,并根据需求变化进行扩展和缩减。通过Redshift Spectrum 功能,您可以针对Amazon S3中的大量数据运行查询,无需加载或转换任何数据。您可以将S3用作高度可用、安全而经济高效的数据湖,以开放数据格式存储无限数据。Amazon Redshift Spectrum旨在数千个并行节点中执行查询,以快速提供结果。
弹性定价选项
Amazon Redshift是具有成本效益的数据仓库,而且您可以选择最佳付费方式。您可以从小规模开始,先选择每小时几美分的价格并且没有消费承诺,然后逐渐扩展到每年TB级用量。Amazon Redshift可以提供无预付费的按需定价模式,预留实例定价模式,通过承诺固定期限可以为您节省费用,以及基于Amazon S3数据湖中扫描的数据量的按查询量付费定价模式。Amazon Redshift的定价包含内置安全性、数据压缩、备份存储和数据传输费用。随着数据量的增加,您可以在RA3实例中使用托管存储,从而以经济高效的方式存储数据。
成本可预测(即使工作负载不可预测)
Amazon Redshift让您能够在成本影响较小的情况下进行扩展,因为每个集群可获得并发扩展积分。这样,即使分析需求有波动,您也可以预测每月的成本。
选择节点类型以充分发挥工作负载的价值:
您可以从三种实例类型中进行选择,以便优化Amazon Redshift来满足自己数据仓库需求:RA3节点、密集计算节点和密集存储节点。
RA3节点让您能够在计算容量之外单独扩展存储容量。利用RA3,您可以获得一种将数据存储在单独存储层中的高性能数据仓库。您只需针对需要的查询性能调整数据仓库大小。
密集计算(DC)节点让您能够创建具有高速CPU、大容量RAM和固态硬盘(SSD)的数据仓库,这是数据小于500GB时的最佳选择。
密集存储(DS2)节点让您能够创建使用硬盘(HDD)的大型数据仓库。
只需要进行一次API调用或使用Amazon管理控制台,您就可以扩展集群或在节点类型之间切换。
安全性与合规性
端到端加密
只需进行参数设置,您即可将Amazon Redshift设置为利用SSL来保护传输中数据,并利用硬件加速型AES-256加密来保护静态数据。Amazon Redshift按照原定设置负责密钥管理。
网络隔离
Amazon Redshift让您能够配置防火墙规则,以便控制对数据仓库集群的网络访问。您可以在Amazon Virtual Private Cloud (VPC)中运行Amazon Redshift,以便将您的数据仓库集群隔离在自己的虚拟网络中,并用加密的IPsec VPN将其连接至您现有的IT基础设施。审计与合规性
Amazon Redshift与Amazon CloudTrail相集成,让您能够审计您的Redshift API调用。Redshift还会记录所有SQL操作,包括连接尝试、查询和数据仓库变动。您可以使用SQL查询在系统表格中访问这些日志,也可以将日志保存到Amazon S3上的安全位置。
令牌化
通过Amazon Lambda用户定义函数(UDF),您可将Amazon Lambda函数用作Amazon Redshift中的UDF,并从Redshift SQL查询调用它。此功能支持为SQL查询编写自定义扩展,以实现与其他服务或第三方产品的更紧密集成。您可以在查询时间中编写Lambda
UDF,以启用外部令牌化、数据掩蔽、通过与Protegrity等供应商集成对数据进行身份识别或去除身份识别信息。
精细访问控制
精细的行级和列级安全控制功能可以确保用户只能看到他们需要访问的数据。Amazon
Redshift与Amazon Lake Formation 集成,可以确保Lake Formation的列级访问控制也应用于针对数据湖中的数据执行的Redshift查询。
Amazon Redshift并发扩展
分析工作负载可能不可预测,导致查询性能降低以及用户竞争资源。
并发扩展特性旨在支持数千个并发用户和并发查询,可提供始终如一的快速查询性能。随着并发性的增加,Amazon Redshift为处理查询增加了查询处理能力。一旦工作负载需求减弱,这种额外的处理能力就会被移除。
并发扩展旨在帮助您:
1. 为数千个并发查询和用户提供始终如一的快速性能。
2. 将集群分配给特定的用户组和工作负载,并控制可以使用的集群数量。
3. 继续使用现有的应用程序和商业智能工具。
要启用并发扩展,请在Redshift控制台中将“并发缩放模式”设置为“自动”。
Amazon Redshift数据共享
Amazon Redshift数据共享可以将Amazon Redshift的优势扩展到多集群部署,同时还能共享数据。数据共享允许跨多个Amazon Redshift集群进行精细和快速的数据访问,而无需复制或移动数据。数据共享功能支持对数据的实时访问,以便您的用户能够始终看到最新的信息。您可以与相同或不同亚马逊云科技账户中及跨区域的Amazon Redshift集群安全共享实时数据。
Amazon Redshift数据共享旨在提供:
1. 在Amazon Redshift数据仓库之间共享数据的简单直接的方式
2. 即时、精细和高性能的数据访问,无需复制数据或移动数据
3. 为所有消费者提供实时且在事务方面一致的数据视图。
4. 在组织内和组织之间,以及与外部相关方进行安全受控的协作。
数据共享构建在Amazon Redshift RA3托管存储之上,可解耦存储和计算,允许这两者中的一种独立扩展。通过数据共享,可以将访问共享数据的工作负载彼此隔离。访问共享数据的查询在消费者集群上运行,并从Amazon Redshift托管存储层直接读取数据,不会影响生产者集群的性能。可以使用灵活的计算资源来预配访问共享数据的工作负载,这些资源可以满足其特定于工作负载的价格性能要求,并可以根据需要以自助服务的方式进行独立扩展。
Amazon Redshift无服务器
Amazon Redshift无服务器能更轻松地运行并扩展分析,无需管理数据仓库基础设施。开发人员、数据科学家和分析师可以跨数据库、数据仓库和数据湖进行操作,从而构建报告和控制面板应用程序,执行实时分析,共享数据并进行协作,以及构建和训练机器学习(ML)模型。Amazon Redshift无服务器旨在预调配和扩展数据仓库容量,为所有工作负载提供快速性能。
从数据中获得见解
Amazon Redshift Serverless旨在帮助您专注于通过快速开始并在所有数据上运行实时或预测分析获得见解,而无需顾虑管理数据仓库基础设施。
性能
Amazon Redshift无服务器旨在扩展或缩减数据仓库容量,为所有工作负载提供快速性能。节省成本和预算
您可以按秒付费。您可以设置支出限额,使用精确控制把支出维持在预算之内。
快速开始使用
Amazon Redshift无服务器旨在允许您加载数据即可通过您最喜欢的BI工具开始使用。
Amazon Redshift安全性和治理
Amazon Redshift利用内置的身份管理和单点登录(SSO)联合身份验证、多重身份验证、精细访问控制Amazon Virtual Private Cloud(Amazon VPC)和更快的集群大小调整,实现了行业领先的安全性。您可以配置Amazon Redshift来保护传输和静止的数据。
基础设施安全性
您可通过防火墙规则控制对您的数据仓库集群进行的网络访问。使用Amazon Virtual Private Cloud(VPC),将您的Redshift数据仓库集群隔离在您自己的虚拟网络中。使用行业标准加密式IPsec VPN连接到您的现有IT基础设施,而无需使用公有IP或者要求流量遍历互联网。您可以对您的数据进行静态加密和传输中加密。
审计与合规性
Amazon Redshift与Amazon CloudTrail集成,以便对所有的Redshift API调用进行审计。Redshift还会记录所有SQL操作,包括连接尝试、查询和对您的数据仓库进行更改。它可以最大限度降低延迟,同时将Amazon CloudWatch添加为日志目标。您可以选择将审计日志流式处理到Amazon CloudWatch,以进行实时监控。Amazon Redshift提供了一个工具和安全措施,客户可以使用它们来评估、满足和展示对适用法律和法规要求的合规性。
身份管理
访问Amazon Redshift需要亚马逊云科技可以用来验证您的请求的凭据。这些凭据必须具有访问亚马逊云科技资源的权限,例如Amazon Redshift集群。您可以使用Amazon身份和访问管理(IAM)和Amazon Redshift,通过控制谁可以访问资源来帮助保护您的资源。
授权管理
基于角色的访问控制(RBAC)可帮助您简化Amazon Redshift中的安全权限,并基于作业角色/权限和数据敏感性宽泛或精细地控制最终用户对数据的访问。您也可以将数据库用户映射到IAM角色,以实现联合访问。列级访问控制帮助您管理列级的数据访问。行级别安全性(RLS)允许您根据角色限制行访问。
Amazon Redshfit查询编辑器v2.0
Amazon Redshfit查询编辑器v2.0是一个基于web的分析工作台,旨在帮助您通过公共界面探索、共享和协作SQL中的数据。
Amazon Redshfit查询编辑器v2.0允许您使用SQL查询数据,并使用图表和图形可视化结果。使用Amazon Redshfit查询编辑器v2.0,您可以通过共享保存的查询、结果和分析进行协作。
Amazon Redshift旨在帮助简化组织、记录和共享多个SQL查询,并支持Amazon Redshfit查询编辑器v2.0中的SQL记事本(预览版)。新的Notebook界面旨在使用户能够更轻松地编写查询,在单个文档上组织多个SQL查询和注释。他们还可以共享笔记本。
访问
Amazon Redshfit查询编辑器v2.0是一个基于web的工具,允许您查询和分析数据,而不需要访问Amazon Redshift控制台的权限。
浏览和可视化
使用Amazon Redshfit查询编辑器v2.0导航器浏览数据库对象,包括表、视图和存储过程。使用可视化向导创建表、函数以及加载和卸载数据。
查询编辑器
Amazon Redshfit查询编辑器v2.0的查询编辑器可以自动完成命令、运行多个查询以及执行多个结果的多语句查询。
导出和构建图表
Amazon Redshfit查询编辑器v2.0旨在帮助您分析和排序数据,而无需重新运行查询,然后将结果导出为JSON/CSV,并构建图表进行可视化分析。
协作
您可以使用Amazon Redshfit查询编辑器v2.0版本管理保存的查询,以使用公共界面与其他SQL用户协作。您可以协作并共享不同版本的查询、结果和图表。
采用托管式存储的Amazon Redshift RA3 实例
使用带有托管式存储的Amazon Redshift RA3实例,您可以基于您的性能需求选择节点数量。基于Amazon Nitro系统,采用托管式存储的RA3实例对热数据使用高性能SSD,对冷数据使用Amazon S3。
采用托管式存储的新RA3实例旨在:
1. 使您能够按小时支付计算费用,并单独扩展数据仓库存储容量,无需添加任何其他计算资源,并且只需为实际使用量付费。
2. 包括AQUA,这是一种新的分布式硬件加速缓存,通过自动加速特定类型的查询。
3. 使用自动精细数据移出和智能数据预取来提供快速性能,同时自动将存储扩展到S3。
4. 具有高带宽联网功能,这可以缩短从Amazon S3卸载和检索数据的时间。
Amazon Redshift机器学习
Amazon Redshift机器学习可以帮助数据分析师和数据库开发人员在Amazon RedShift数据仓库中使用熟悉的SQL命令创建、训练和应用机器学习模型。使用Redshift机器学习,您可以利用Amazon SageMaker这一托管机器学习服务,而无需学习新的工具或语言。只需使用SQL语句使用您的Redshift数据创建和训练Amazon SageMaker机器学习模型,然后使用这些模型进行预测。
因为Redshift机器学习允许您使用标准SQL,这可以帮助您高效地处理分析数据的新用例。Redshift机器学习提供了Redshift和Amazon SageMaker之间的集成,并支持Redshift集群内的推理,因此您可以在查询和应用程序中使用基于机器学习的模型生成的预测。不需要管理单独的推理模型端点,训练数据通过加密进行端到端保护。
使用标准SQL对Redshift数据使用机器学习
如需开始操作,请在Redshift中使用CREATE MODEL SQL命令,并将训练数据指定为表或SELECT语句。Redshift机器学习旨在编译并导入Redshift数据仓库中的训练模型,并准备一个SQL推理函数,该函数可以立即用于SQL查询。Redshift 机器学习处理训练和部署模型所需的所有步骤。
使用Amazon Redshift进行预测分析
使用Redshift机器学习,您可以在查询和报告中直接嵌入欺诈检测、风险评分和流失预测等预测。使用SQL函数将机器学习模型应用于查询、报表和仪表板中的数据。
自带模型(BYOM)
Redshift机器学习支持使用BYOM进行本地或远程推理。您可以使用Amazon SageMaker在Redshift之外训练的模型,在Amazon Redshift中进行本地数据库内推理。您可以导入SageMaker Autopilot并指导Amazon SageMaker训练的模型进行本地推理。或者,您可以调用部署在远程SageMaker端点中的远程自定义机器学习模型。您可以使用任何SageMaker机器学习模型接受并返回文本或CSV进行远程推理。
其他信息
有关服务控制、安全特性及功能的其他信息,包括有关存储、检索、修改、限制和删除数据的信息,请参见https://docs.amazonaws.cn/。 以上链接包含的信息不构成光环新网关于亚马逊云科技(北京区域)的客户协议或西云数据关于亚马逊云科技(宁夏区域)的客户协议的“文档”的一部分,也不构成您与光环新网或西云数据之间就您使用亚马逊云科技中国区域服务达成的其他协议的任何部分。