一般性问题
问:什么是 Amazon DataSync?
答:Amazon DataSync 是一项在线数据移动和发现服务,可简化和加速将数据迁移到亚马逊云科技,以及将数据移入和移出本地存储、边缘站点、其他云服务提供商和亚马逊云科技存储。
对于在线数据传输,Amazon DataSync 可简化、自动化和加速在本地存储、边缘站点或其他云与亚马逊云科技存储服务之间以及在亚马逊云科技存储服务之间复制大量数据。DataSync 可以在网络文件系统(NFS)共享、服务器消息块(SMB)共享、Hadoop Distributed File Systems(HDFS)、自行管理的对象存储、Azure 文件存储、Azure Blob 存储(包括 Azure Data Lake Storage Gen2)、Amazon Simple Storage Service(Amazon S3)、Amazon Elastic File System(Amazon EFS)文件系统、Amazon FSx for Windows File Server 文件系统和 Amazon FSx for Lustre 文件系统之间复制数据。
问:为什么应该使用 Amazon DataSync?
答:Amazon DataSync 使您能够安全、快速地发现和移动数据。使用 DataSync Discovery(预览版),您可以更好地了解您的本地存储利用率并获得建议,为您的成本估算和迁移到 Amazon Web Services 的计划提供信息。对于数据移动,您可以使用 DataSync 复制包含数百万个文件的大型数据集,无需使用开源工具构建自定义解决方案,也无需许可和管理昂贵的商业网络加速软件。您可以使用 DataSync 将活动数据迁移到亚马逊云科技、存档数据以释放本地存储容量、将数据复制到亚马逊云科技以实现业务连续性,或者将数据传输到云端进行分析和处理。
问:亚马逊 DataSync 为我解决了什么问题?
答:Amazon DataSync 降低了在线数据传输的复杂性和成本,使在本地、边缘或其他云存储与 Amazon Storage 服务之间以及在 Amazon Storage 服务之间传输数据集变得简单。DataSync 使用标准存储协议(NFS、SMB)、作为 HDFS 客户端或使用 Amazon S3 API 连接到现有的存储系统和数据源。它使用专门构建的网络协议和横向扩展架构来加速本地存储系统与 Amazon Storage 服务之间的数据传输。DataSync 可自动扩展和处理移动的文件和对象、安排数据传输、监控传输进度、加密、验证数据传输以及将任何问题通知客户。使用 DataSync,您只需为复制的数据量付费,没有最低承诺或预付费用。
数据移动
问:我可以在哪里移入和移出数据?
答:DataSync 支持以下存储位置类型:网络文件系统(NFS)共享、服务器消息块(SMB)共享、Hadoop Distributed File Systems(HDFS)、自行管理的对象存储、Azure 文件存储、Azure Blob 存储(包括 Azure Data Lake Storage Gen2)、Amazon Simple Storage Service(Amazon S3)、Amazon Elastic File System(Amazon EFS)文件系统、Amazon FSx for Windows File Server 文件系统、Amazon FSx for Lustre 文件系统。
问:如何使用 Amazon DataSync 将数据迁移到亚马逊云科技?
答:您可以使用 Amazon DataSync 将位于本地、边缘或其他云中的数据迁移到亚马逊 S3、亚马逊 EFS、适用于 Windows 文件服务器的 Amazon FSx 和适用于 Lustre 的 Amazon FSx。配置 DataSync 以创建整个数据集的初始副本,并安排不断变化的数据的后续增量传输,直到最终从本地转移到 Amazon Storage 服务。DataSync 包括加密和完整性验证,可帮助确保您的数据安全、完好无损并随时可用。为了最大限度地减少对依赖网络连接的工作负载的影响,您可以将迁移安排在非工作时间运行,或者通过配置内置带宽限制来限制 DataSync 使用的网络带宽量。DataSync 在具有相似元数据结构的存储系统之间保留元数据,使最终用户和应用程序能够平稳过渡到使用您的目标亚马逊云科技存储服务。阅读存储博客“使用 Amazon DataSync 迁移存储”,详细了解迁移最佳实践和技巧。
问:如何使用 Amazon DataSync 归档冷数据?
答:您可以使用 Amazon DataSync 将冷数据从本地存储系统直接移动到耐用且安全的长期存储,例如 Amazon S3 Glacier Flexible Retrieval(以前是 S3 Glacier)或 Amazon S3 Glacier Deep Archive。使用 DataSync 的排除筛选器排除复制临时文件和文件夹,或使用包含筛选器或清单仅从源位置复制文件子集。您可以根据自己的需求选择最具成本效益的存储服务:将数据传输到任何 S3 存储类,或者使用 DataSync 和 EFS 生命周期管理将数据存储在 Amazon EFS 不经常访问存储类(EFS IA) 中。使用内置的任务调度功能定期存档应出于合规性或审计目的保留的数据,例如日志、原始素材或电子病历。
问:如何使用 Amazon DataSync 将数据复制到亚马逊云科技以实现业务连续性?
答:使用 Amazon DataSync,您可以定期将文件复制到任何 Amazon S3 存储类别,或者将数据发送到亚马逊 EFS、适用于 Windows 文件服务器的 Amazon FSx 和备用文件系统的 Amazon FSx for Lustre。使用内置的任务调度功能,确保定期将对数据集的更改复制到目标存储。阅读这篇亚马逊存储博客,详细了解如何使用 Amazon DataSync 进行数据保护。
问:如何使用 Amazon DataSync 在本地和亚马逊存储服务之间定期传输正在进行的工作流程?
答:您可以使用 Amazon DataSync 从本地系统持续传输到或传出 Amazon 存储服务进行处理。在需要将活动文件快速移入 Amazon Storage 的行业中,DataSync 可以帮助加快关键混合云存储工作流程。这包括生命科学中的机器学习、媒体和娱乐领域的视频制作、金融服务中的大数据分析以及石油和天然气的地震研究。DataSync 提供及时交付,以确保相关进程不会延迟。您可以指定包含和排除筛选器或清单,以指定每次任务运行时应传输哪些文件或对象。
问:我能否使用 Amazon DataSync 将数据从其他云复制到亚马逊云科技?
答:可以。使用 Amazon DataSync,您可以使用 SMB 协议复制 Azure 文件存储中的数据,也可以复制 Azure Blob 存储(包括 Azure Data Lake Storage Gen 2)中的数据。只需在您的云环境或 Amazon EC2 上部署 DataSync 代理,创建源位置和目标位置,然后即可启动任务以开始复制数据。
问:如何使用 Amazon DataSync 在亚马逊云科技存储服务之间传输数据?
答:您可以使用 DataSync 在同一个亚马逊云科技账户内的 Amazon S3、Amazon EFS、Amazon FSx for Windows File Server 和 Amazon FSx for Lustre 之间传输文件或对象。您可以在同一个亚马逊云科技区域的亚马逊云科技之间传输数据。这不需要部署 DataSync 代理,可以使用 Amazon DataSync 控制台、命令行界面 (CLI) 或软件开发套件 (SDK) 进行端到端配置。
使用量
问:如何开始使用 Amazon DataSync 移动我的数据?
答:您只需在亚马逊云科技管理控制台中单击几下或通过亚马逊命令行界面(CLI),即可使用 Amazon DataSync 传输数据。要开始,请按照以下 3 个步骤操作:
1.要在本地、边缘或其他云存储系统与亚马逊存储服务之间传输数据,请部署代理-部署 DataSync 代理并通过管理控制台或 API 将其关联到您的亚马逊云科技账户。代理将用于访问您的 NFS 服务器、SMB 文件共享、Hadoop 集群或自管理或云对象存储,以从中读取数据或向其写入数据。无需部署代理即可在同一亚马逊云科技账户内的亚马逊存储服务之间传输数据。
2.创建数据传输任务 - 通过指定数据源和目标的位置以及要用于配置传输的任何选项(例如,安排任务和启用任务报告)来创建任务。
3.开始传输 - 启动任务,在控制台中或使用 Amazon CloudWatch 监控数据移动,并使用任务报告审核传输任务。
问:如何部署 Amazon DataSync 代理?
答:您将 Amazon DataSync 代理部署到本地虚拟机管理程序、公有云环境或 Amazon EC2 中。要将数据复制到本地文件服务器或从本地文件服务器复制数据,请从亚马逊云科技控制台下载代理虚拟机映像,然后部署到您的本地 VMware ESXi、基于 Linux 内核的虚拟机 (KVM) 或微软 Hyper-V 虚拟机管理程序。使用 DataSync 代理时,必须部署代理,使其能够使用 NFS、SMB 协议访问您的文件服务器、访问 Hadoop 集群中的 NameNodes 和 DataNodes,或者使用 Amazon S3 API 访问您的自管理对象存储。无需部署代理即可在同一亚马逊云科技账户内的亚马逊云科技存储服务之间传输数据。
问:如何启动 Amazon DataSync 数据传输任务?
答:当您通过亚马逊云科技管理控制台或亚马逊云科技命令行界面 (CLI) 启动任务时,Amazon DataSync 会复制数据。每次运行任务时,它都会扫描源和目标是否有更改,并将源与目标之间的任何数据和元数据差异复制一次。您可以配置使用源代码的哪些特征来确定更改的内容,定义包含和排除筛选器或清单以传输特定文件或文件夹,以及控制在源中更改时是否应覆盖目标中的文件或对象,或者在源中找不到时删除目标中的文件或对象。
问:Amazon DataSync 如何确保我的数据被正确复制?
答:当 Amazon DataSync 传输和存储数据时,它会执行完整性检查,以确保写入目标的数据与从源读取的数据相匹配。此外,在传输结束时,可以执行可选的验证检查以比较来源和目的地。DataSync 将计算和比较存储在源和目标中的数据的完整文件校验和。您可以检查整个数据集,也可以只检查 DataSync 传输的文件或对象。
问:如何审核和监控 Amazon DataSync 传输的数据状态?
答:您可以使用任务报告,通过验证所有任务执行中的传输操作来审核数据传输过程。通过任务报告,您可以获得一份摘要报告,以及每次执行任务时所有传输、跳过、验证和删除的文件的详细报告。任务报告为您提供传输的文件总数和字节数,并包括文件属性,例如大小、路径、时间戳、文件校验和以及对象版本 ID(如果适用)。您还可以利用 Amazon Glue 和 Amazon Athena 来自动分类和查询任务报告,以获得有关数据传输流程的重要见解。
您可以使用亚马逊云科技管理控制台或 CLI 来监控传输数据的状态和进度。使用 Amazon CloudWatch 指标,您可以查看已复制的文件数量和数据量。您还可以启用将单个文件记录到 CloudWatch Logs,以识别在给定时间传输的内容以及 DataSync 执行的内容完整性验证的结果。
这些解决方案共同简化了监控、报告和故障排除,使您能够及时向利益相关者提供最新信息。
问:我能否筛选 Amazon DataSync 传输的文件和文件夹?
答:是。您可以指定排除筛选器、包含筛选器或两者,以限制每次任务运行时传输的文件、文件夹或对象。或者,您可以使用清单来指定应从源位置传输的文件或对象的子集。
包含筛选器指定任务运行时应包含的文件和文件夹路径或对象键,并限制 DataSync 在源和目标上扫描内容的范围。排除筛选器指定了应从复制中排除的文件和文件夹路径或对象键。创建或更新任务时,您可以配置排除和包含筛选器。启动任务时,您可以覆盖并更新在任务上配置的筛选器。阅读此亚马逊云科技存储博客,详细了解如何在 DataSync 中使用常用筛选器。
清单是 CSV 格式的文件,列出了任务运行时应包含的文件路径或对象键,并限制 DataSync 在源和目标上扫描内容的范围。创建或更新任务时,您可以为清单文件提供数百万个源文件或对象,而 DataSync 只会比较和传输清单中列出的文件。启动任务时,您可以覆盖和更新清单文件。从 Amazon S3 中复制数据时,您还可以为要传输的每个对象指定一个可选的 S3 版本 ID。阅读此博客了解更多详细信息。
请注意,筛选器和清单不能一起使用。
问:使用清单文件与使用包含筛选器有何不同?
答:清单是明确列出要从源位置传输的文件或对象的列表,而包含筛选器是一个字符串,用于指定要从源位置传输的文件和文件夹的模式。仅复制与筛选器中的模式相匹配的文件和文件夹。模式可以是整个文件或文件夹路径,也可以是以通配符(*)结尾的前缀,表示应复制与该前缀匹配的所有文件或对象。对于只想复制一小部分文件或对象或几个特定文件夹的客户来说,包含筛选器是理想的选择。拥有知名数据集(例如作为自动化工作流程的一部分移动的数据集)的客户可以使用清单来避免扫描其整个文件或对象存储系统以确定更改。使用清单文件,客户可以指定要传输的数百万个源文件或对象,而 DataSync 只会比较清单中列出的文件。客户还可以使用清单从其 Amazon S3 存储桶中复制对象的特定版本。
问:我能否将 Amazon DataSync 配置为按计划传输?
答:是。您可以使用 Amazon DataSync 控制台或亚马逊 Web Services 命令行界面 (CLI) 安排任务,无需编写和运行脚本来管理重复传输。任务计划自动按照您配置的计划运行任务,控制台中直接提供每小时、每天或每周选项。这使您能够确保自动检测到对数据集的更改并将其复制到目标存储。
问:Amazon DataSync 在复制文件时是否保留目录结构?
答:是。传输文件时,Amazon DataSync 在目标位置创建的目录结构与在源位置的结构上创建的目录结构相同。
问:如果 Amazon DataSync 任务中断会发生什么?
答:如果任务中断,例如,如果网络连接中断或重新启动 Amazon DataSync 代理,则下一次运行该任务将传输丢失的文件,并且在此运行结束时数据将完整且一致。每次启动任务时,它都会执行增量复制,仅将更改从源传输到目标。
问:我能否将 Amazon DataSync 与亚马逊直接连接一起使用?
答:您可以将 Amazon DataSync 与您的直接连接链接一起使用来访问公共服务终端节点或私有 VPC 终端节点。使用 VPC 终端节点时,DataSync 代理和 Amazon Web Services 之间传输的数据无需通过公共互联网或公有 IP 地址,从而提高了通过网络复制数据的安全性。
问:亚马逊 DataSync 是否支持 VPC 终端节点或亚马逊 PrivateLink?
答:是的,数据移动用例支持 VPC 终端节点。您可以使用 VPC 终端节点来确保在本地或云端部署的 Amazon DataSync 代理之间传输的数据不会通过公共互联网或需要公有 IP 地址。使用 VPC 终端节点可将网络流量保持在亚马逊虚拟私有云 (Amazon VPC) 内,从而提高数据的安全性。VPC 端点由 Amazon PrivateLink 提供支持,这是一种高度可用的可扩展技术,允许您将 VPC 私下连接到受支持的亚马逊云科技服务。
问:如何将 Amazon DataSync 配置为使用 VPC 终端节点?
答:要将 VPC 终端节点与 Amazon DataSync 一起使用,您需要在所选的 VPC 中为 DataSync 服务创建一个 Amazon PrivateLink 接口 VPC 终端节点,然后在创建 DataSync 代理时选择此终端节点弹性网络接口 (ENI)。您的代理将连接到此 ENI 进行激活,随后,代理传输的所有数据将保留在您配置的 VPC 中。您可以使用 Amazon DataSync 控制台、亚马逊命令行接口 (CLI) 或亚马逊 SDK 来配置 VPC 终端节点。要了解更多信息,请参阅在虚拟私有云中使用 Amazon DataSync。
迁入和移出亚马逊存储
问:Amazon DataSync 支持哪些亚马逊云科技存储服务?
Amazon DataSync 支持将数据移入 Amazon Simple Storage Service (Amazon S3)、Amazon Elastic File System (Amazon EFS)、Amazon FSx for Windows File Server 和 Amazon FSx for Lustre,或在这些服务之间移动数据。
Amazon S3
问:我能否将我的数据复制到 Amazon S3 Glacier 灵活检索(以前是 S3 Glacier)、Amazon S3 Glacier 深度存档或其他 S3 存储类中?
答:是。在配置 S3 存储桶以与 Amazon DataSync 一起使用时,您可以选择 DataSync 用于存储对象的 S3 存储类别。DataSync 支持将数据直接存储到 S3 标准、S3 智能分层、S3 标准低频访问 (S3 标准 IA)、S3 单区低频访问 (S3 One Zone-IA)、Amazon S3 Glacier 灵活检索和 Amazon S3 Glacier 深度存档(S3 Glacier 深度存档)。有关 Amazon S3 存储类别的更多信息,请参阅亚马逊简单存储服务开发人员指南。
小于每个对象最低充电容量的对象将存储在 S3 标准中。例如,大小为零字节且仅保存元数据的文件夹对象将存储在 S3 Standard 中。在我们的文档中阅读有关使用 Amazon S3 存储类时的注意事项,有关最低充电容量的更多信息,请参阅 Amazon S3 定价。
问:我能否从 S3 标准-IA 和 S3 One Zone-IA 存储类中复制数据?
答:是。使用 S3 作为 Amazon DataSync 任务的源位置时,该服务将检索存储桶中需要复制到目标的所有对象。从 S3 Standard-IA 和 S3 One Zone-IA 存储中检索对象将根据对象的大小产生检索费用。在我们的文档中阅读使用 Amazon S3 存储类时的注意事项。
问:我能否从 Amazon S3 Glacier 灵活检索(以前是 S3 Glacier)和 Amazon S3 Glacier 深度存档中复制数据?
答:使用 S3 作为 Amazon DataSync 任务的源位置时,该服务将尝试从存储桶中检索所有需要复制到目标的对象。检索在 S3 Glacier 灵活检索或 S3 Glacier 深度存档存储类中存档的对象会导致错误。检索存档对象时出现的任何错误都将由 DataSync 记录,并将导致任务完成状态失败。在我们的文档中阅读使用 Amazon S3 存储类时的注意事项。
问:亚马逊 DataSync 如何访问我的亚马逊 S3 存储桶?
答:Amazon DataSync 担任您提供的 IAM 角色。您附加到该角色的策略决定了该角色可以执行哪些操作。DataSync 可以代表您自动生成此角色,也可以手动配置角色。
问:Amazon DataSync 如何将文件和文件夹转换为 Amazon S3 中的对象或从中转换文件和文件夹?
答:将文件或文件夹复制到 Amazon S3 时,文件或文件夹与对象之间存在一对一的关系。文件和文件夹时间戳以及 POSIX 权限,包括用户 ID、群组 ID 和权限,存储在 S3 用户元数据中。对于 NFS 共享,存储在 S3 用户元数据中的文件元数据可与文件网关完全互操作,从而提供对存储在 Amazon S3 中的 Amazon S3 中的数据的本地文件访问。
当 DataSync 将包含此用户元数据的对象复制回 NFS 服务器时,文件元数据将恢复。从 NFS 复制回到 S3 时,符号链接和硬链接也会恢复。
从 SMB 文件共享中复制时,默认 POSIX 权限存储在 S3 用户元数据中。复制回 SMB 文件共享时,将根据在 DataSync 中配置为访问该文件共享的用户设置所有权,并分配默认权限。
从 HDFS 复制时,文件和文件夹时间戳、用户和组所有权以及 POSIX 权限存储在 S3 用户元数据中。从 Amazon S3 复制回 HDFS 时,将恢复文件和文件夹的元数据。
要详细了解 DataSync 如何存储文件和元数据,请参阅我们的文档。
问:在自行管理的对象存储或 Azure Blob 存储与 Amazon S3 之间传输对象时,会保留哪些对象元数据?
答:在自行管理的对象存储或 Azure Blob 存储与 Amazon S3 之间传输对象时,DataSync 会将对象以及对象元数据和标签一起复制。
问:在 Amazon S3 存储桶之间传输对象时会保留哪些对象元数据?
答:在 Amazon S3 存储桶之间传输对象时,DataSync 会将对象与对象元数据和标签一起复制。DataSync 不会复制其他对象信息,例如对象 ACL 或以前的对象版本。
问:将 S3 存储类与 Amazon DataSync 一起使用时,会产生哪些 Amazon S3 请求和存储费用?
答:某些 S3 存储类的行为可能会影响您的成本,例如数据检索、最小存储容量和最小存储持续时间。DataSync 自动管理数据以解决这些因素,并提供设置以最大限度地减少数据检索。
为了避免为每个对象收取最低容量费用,Amazon DataSync 会自动将小对象存储在 S3 标准中。为了最大限度地降低数据检索费用,您可以将 DataSync 配置为仅验证给定任务传输的文件。为避免收取最低存储持续时间费用,DataSync 具有覆盖和删除对象的控件。在我们的文档中阅读使用 Amazon S3 存储类时的注意事项。
Amazon EFS
问:亚马逊 DataSync 如何访问我的亚马逊 EFS 文件系统?
答:亚马逊 DataSync 使用 NFS 协议访问您的亚马逊 EFS 文件系统。DataSync 服务从 DataSync 服务管理的弹性网络接口 (ENI) 在 VPC 内装载您的文件系统。DataSync 代表您完全管理这些 ENI 的创建、使用和删除。您可以选择使用装载目标或 EFS 接入点装载 EFS 文件系统。
问:我能否将 Amazon DataSync 用于所有 Amazon EFS 存储类别?
答:是。您可以使用 Amazon Transfer 将文件写入 EFS 并配置 EFS 生命周期管理,以将在设定时间内未访问的文件迁移到不频繁访问(IA)存储类中。
问:如何使用 Amazon DataSync 和 Amazon EFS 文件系统资源策略?
答:您可以使用 IAM 身份策略和资源策略,以可扩展和针对云环境优化的方式控制客户端对 Amazon EFS 资源的访问。当您为 EFS 文件系统创建 DataSync 位置时,您可以指定 DataSync 在访问 EFS 时将担任的 IAM 角色。然后,您可以使用 EFS 文件系统策略配置 IAM 角色的访问权限。由于 DataSync 以根用户身份挂载 EFS 文件系统,因此您的 IAM 策略必须允许以下操作:elasticfilesystem: ClientRootAccess。
问:我能否使用 Amazon DataSync 将我的 Amazon EFS 文件系统复制到不同的亚马逊云科技中国区域?
答:是。除了 Amazon EFS 提供的内置复制功能外,您还可以使用 Amazon DataSync 安排定期将您的 Amazon EFS 文件系统复制到同一亚马逊云科技账户内的第二个 Amazon EFS 文件系统。此功能适用于同区域和跨区域部署,不需要使用 DataSync 代理。
问:在 NFS 共享和 Amazon EFS 之间或两个 Amazon EFS 文件系统之间复制数据时,会保留哪些元数据?
答:Amazon DataSync 复制文件和文件夹的时间戳以及 POSIX 权限,包括用户 ID、群组 ID 和权限。您可以在我们的文档中了解更多信息并查看复制的元数据的完整列表。
问:在 HDFS 和 Amazon EFS 之间复制数据时会保留哪些元数据?
答:Amazon DataSync 复制文件和文件夹时间戳以及 POSIX 权限,并应用用户 ID 和群组 ID 的默认值。您可以在我们的文档中了解更多信息并查看复制的元数据的完整列表。
Amazon FSx for Windows File Server
问:亚马逊 DataSync 如何访问我的适用于 Windows 文件服务器的亚马逊 FSx 文件系统?
答:Amazon DataSync 使用 SMB 协议访问您的 Amazon FSx for Windows 文件系统,使用您在亚马逊云科技控制台或 CLI 中配置的用户名和密码进行身份验证。DataSync 服务从 DataSync 服务管理的弹性网络接口 (ENI) 在 VPC 内装载您的文件系统。DataSync 代表您完全管理这些 ENI 的创建、使用和删除。
问:在 SMB 共享到 Windows 文件服务器的 Amazon FSx 文件系统之间或者在两个 Amazon FSx 文件系统之间进行复制时,会传输哪些 Windows 元数据?
答:Amazon DataSync 复制 Windows 元数据,包括文件时间戳、文件所有者、标准文件属性、NTFS 自由访问列表 (DACL) 和 NTFS 系统访问控制列表 (SACL)。您可以在我们的文档中了解更多信息并查看复制的元数据的完整列表。
问:我能否使用 Amazon DataSync 将我的 Amazon FSx for Windows 文件服务器文件系统复制到不同的亚马逊云科技中国区域?
答:是。您可以使用 Amazon DataSync 安排定期将您的 Amazon FSx for Windows 文件服务器文件系统复制到同一个亚马逊云科技账户内的第二个文件系统。此功能适用于同区域和跨区域部署,不需要使用 DataSync 代理。
Amazon FSx for Lustre
问:亚马逊 DataSync 如何访问我的亚马逊 FSx for Lustre 文件系统?
答:当您创建 DataSync 任务以复制到您的 FSx for Lustre 文件系统时,DataSync 服务将在您的文件系统所在的同一 VPC 和子网中创建弹性网络接口 (ENI)。DataSync 使用这些 ENI 以 Lustre 协议作为根用户访问你的 FSx for Lustre 文件系统。当您为 FSx for Lustre 文件系统创建 DataSync 位置资源时,您最多可以指定五个安全组应用于 ENI 并配置来自 DataSync 服务的出站访问。必须将安全组配置为允许 FSx for Lustre 所需的网络端口上的出站流量。应将 FSx for Lustre 文件系统上的安全组配置为允许您分配给 FSx for Lustre 文件系统的 DataSync 位置资源的安全组进行入站访问。
问:在 NFS 共享或 Amazon EFS 文件系统和 Amazon FSx for Lustre 之间复制数据时,或者在两个 Amazon FSx for Lustre 文件系统之间复制数据时,会保留哪些元数据?
答:Amazon DataSync 复制文件和文件夹的时间戳以及 POSIX 权限,包括用户 ID、群组 ID 和权限。您可以在我们的文档中了解更多信息并查看复制的元数据的完整列表。
问:我能否使用 Amazon DataSync 将数据从一个 FSx for Lustre 文件系统迁移到另一个文件系统?
答:是。您可以使用 Amazon DataSync 从 FSx for Lustre 文件系统复制到同一个亚马逊云科技账户内的第二个文件系统。此功能适用于同区域和跨区域部署,不需要使用 DataSync 代理。
问:我能否使用 Amazon DataSync 将我的 Amazon FSx for Lustre 文件系统复制到不同的亚马逊云科技中国区域?
答:是。您可以使用 Amazon DataSync 安排定期将您的 Amazon FSx for Lustre 文件系统复制到同一个亚马逊云科技账户内的第二个文件系统。此功能适用于同区域和跨区域部署,不需要使用 DataSync 代理。
问:从一个 Amazon FSx for Lustre 文件系统复制到另一个文件系统时,DataSync 会复制条带或布局设置吗?
答:没有。使用目标文件系统上的文件布局和条带配置来写入文件。
性能
问:Amazon DataSync 能以多快的速度将我的文件系统复制到亚马逊存储服务?
答:Amazon DataSync 复制给定数据集的速率取决于数据量、可从源和目标存储器获得的 I/O 带宽、可用网络带宽和网络条件。对于本地和亚马逊云科技存储服务之间的数据传输,单个 DataSync 任务能够充分利用 10Gbps 的网络链接。
问:我能否控制 Amazon DataSync 任务使用的网络带宽量?
答:是。您可以通过配置内置带宽限制来控制 Amazon DataSync 将使用的网络带宽量。您可以在数据传输任务运行时增加或减少此限制。这使您能够最大限度地减少对依赖相同网络连接的其他用户或应用程序的影响。
问:如何监控亚马逊 DataSync 的性能?
答:Amazon DataSync 生成 Amazon CloudWatch 指标,以提供传输过程的详细可见性。使用这些指标,您可以查看已复制的文件数量和数据量,以及文件发现和验证进度。您可以直接在 DataSync 控制台中查看包含这些指标的 CloudWatch 图表。
问:Amazon DataSync 会影响我的源文件系统的性能吗?
答:根据您的本地文件存储的容量以及要传输的文件的数量和大小,Amazon DataSync 可能会影响其他客户端访问同一源数据存储时的响应时间,因为代理从该存储系统读取或写入数据。为任务配置带宽限制将通过限制存储系统的 I/O 来减少这种影响。
安全性与合规性
问:我的数据在传输和存储时是否经过加密?
答:是。在源和目标之间传输的所有数据都通过传输层安全 (TLS) 加密,它取代了安全套接字层 (SSL)。数据永远不会保留在 Amazon DataSync 本身中。该服务支持对 S3 存储桶使用默认加密、对静态数据使用 Amazon EFS 文件系统加密以及静态和传输中的 Amazon FSx 加密。
问:亚马逊 DataSync 如何访问我的 NFS 服务器或 SMB 文件共享?
答:Amazon DataSync 使用您部署到您的 IT 环境或 Amazon EC2 中的代理通过 NFS 或 SMB 协议访问您的文件。该代理会连接到亚马逊云科技中的 DataSync 服务端点,并通过亚马逊云科技管理控制台或 CLI 安全地进行管理。
问:亚马逊 DataSync 如何访问我的 Hadoop 集群上的 HDFS?
答:Amazon DataSync 使用您部署到您的 IT 环境或 Amazon EC2 中的代理来访问您的 Hadoop 集群。DataSync 代理充当 HDFS 客户端,与集群中的 NameNodes 和 DataNodes 通信。当您启动任务时,DataSync 会查询主 NameNode 以确定集群上文件和文件夹的位置。然后,DataSync 与集群中的 DataNodes 通信,将文件和文件夹复制到 HDFS 或从 HDFS 复制文件和文件夹。
问:Amazon DataSync 如何访问我的自我管理存储或云对象存储?
答:Amazon DataSync 使用您部署到您的 IT 环境或 Amazon EC2 中的代理来使用 Amazon S3 API 访问您的对象。该代理会连接到亚马逊云科技中的 DataSync 服务端点,并通过亚马逊云科技管理控制台或 CLI 安全地进行管理。
问:Amazon DataSync 如何访问我的 Azure Blob 存储容器?
答:Amazon DataSync 会使用您部署到 Azure 环境或 Amazon EC2 中的代理,来访问您的 Azure Blob 存储容器中的对象。该代理会连接到亚马逊云科技中的 DataSync 服务端点,并通过亚马逊云科技管理控制台或 CLI 安全地进行管理。该代理会使用您在创建 DataSync Azure Blob 位置时指定的 SAS 令牌,来对您的 Azure 容器进行身份验证。
问:Amazon DataSync 是否需要设置 VPN 才能连接到我的目标存储?
答:没有。在将数据复制到您的场所或从您的场所复制数据时,无需设置 VPN/隧道或允许入站连接。可以将您的 Amazon DataSync 代理配置为使用标准网络端口通过防火墙进行路由。您还可以使用 VPC 终端节点在您的亚马逊虚拟私有云 (亚马逊 VPC) 中部署 DataSync。使用 VPC 终端节点时,DataSync 代理和亚马逊云科技之间传输的数据无需遍历公共互联网或需要公有 IP 地址。
问:我的 Amazon DataSync 代理是如何修补和更新的?
答:代理激活后,DataSync 会自动应用代理虚拟机的更新,包括底层操作系统和 Amazon DataSync 软件包。当代理处于空闲状态且未执行数据传输任务时,将无中断地应用更新。
何时选择亚马逊 DataSync
问:Amazon DataSync 与使用 rsync 或 Amazon S3 命令行界面等命令行工具有何不同?
答:Amazon DataSync 可以完全自动化并加速将大型活动数据集迁移到亚马逊存储服务。它与亚马逊 S3、亚马逊 EFS、Amazon FSx、Ama zon CloudWatch 和 Amazon CloudTrail 原生集成,可无缝安全地访问您的存储服务,并对传输进行详细监控。
DataSync 使用专门构建的网络协议和横向扩展架构来传输数据。对于本地和亚马逊云科技存储服务之间的数据传输,单个 DataSync 任务能够充分利用 10Gbps 的网络链接。
DataSync 完全自动执行数据传输。它具有重试和网络弹性机制、网络优化、内置任务调度、通过任务报告进行审核、通过 DataSync API 和控制台进行监控,以及 CloudWatch 指标、事件和日志,可实现传输过程的精细可见性。DataSync 在传输期间和传输结束时都执行数据完整性验证。
DataSync 提供端到端安全性,并直接与亚马逊云科技存储服务集成。在源和目标之间传输的所有数据均通过 TLS 加密,并通过 IAM 角色等内置亚马逊云科技安全机制启用对您的亚马逊云科技存储的访问权限。启用 VPC 端点的 DataSync 可确保组织与亚马逊云科技之间传输的数据不会通过公共互联网,从而进一步提高通过网络复制数据的安全性。
问:要在我的存储桶之间传输对象,我何时使用 Amazon DataSync,何时使用 S3 复制,何时使用 S3 批量操作?
答:Amazon Web Services 提供了多种工具,用于在您的存储段之间复制对象。
使用 Amazon DataSync 进行持续的数据分发、数据管道和数据湖采集,以及在多个存储段之间整合或拆分数据。
使用 S3 复制将数据连续复制到特定的目标存储桶。
使用 S3 批量操作对 S3 对象执行大规模批量操作,例如复制对象、设置对象标签或访问控制列表 (ACL)、从 Amazon S3 Glacier 灵活检索(以前是 S3 Glacier)启动对象恢复、调用 Amazon Lambda 函数使用您的对象执行自定义操作、管理 S3 对象锁定合法保留或管理 S3 对象锁定保留日期。
问:我何时使用亚马逊 DataSync 以及何时使用亚马逊 Snowball?
答:Amazon DataSync 非常适合在线数据传输。您可以使用 DataSync 将活动数据迁移到亚马逊云科技存储服务,将数据传输到云端进行分析和处理,存档数据以释放本地存储容量,或者将数据复制到亚马逊云科技存储服务以实现业务连续性。
Amazon Snowball 非常适合离线数据传输、带宽受限的客户或从远程、断开连接或严酷的环境传输数据。
问:我何时使用 Amazon DataSync 以及何时使用 Amazon Transfer Family?
答:如果您目前使用 SFTP 与第三方交换数据,Amazon Transfer Family 可提供完全托管的 SFTP、FTPS 和 FTP 直接传入和传出 Amazon S3,同时减轻您的操作负担。
如果您想在 NFS 服务器、SMB 文件共享、Hadoop 集群、自管理或云对象存储、Amazon S3、Amazon EFS 和 Amazon FSx 之间进行加速和自动的数据传输,则可以使用 Amazon DataSync。DataSync 非常适合需要在线迁移活动数据集、及时传输持续生成的数据或需要复制以实现业务连续性的客户。