租用帮助

如何将数据仓库从AWS Redshift迁移?
2023-12-04 16:16:55
阅读()
摘要:     Amazon Redshift 是一个强大的云原生数据仓库解决方案。但 AWS Redshift 上手难度较大,对知识储备要求较高,设计和优化相当复杂。作为云数据仓库,AWS Redshift 没有本地仓库操作快速便捷。使用云端Redshift服务,您无需管理庞大的服务器集群,分析数据的成本不到传统解决方案的十分之一,也能和您现有的BI产品集成。使用Redshift服务有众多的优势。

Amazon Redshift 是一个强大的云原生数据仓库解决方案。但 AWS Redshift 上手难度较大,对知识储备要求较高,设计和优化相当复杂。作为云数据仓库,AWS Redshift 没有本地仓库操作快速便捷。使用云端Redshift服务,您无需管理庞大的服务器集群,分析数据的成本不到传统解决方案的十分之一,也能和您现有的BI产品集成。使用Redshift服务有众多的优势。


AWS Redshift迁移:http://www.hkt4.com/zt/2023-05-06/


一、Amazon Redshift 的优势


1、完全托管,快速上手:使用Redshift云服务,您可以根据业务需要在几分钟内建立几个到几十个节点的数据仓库集群,立刻开始您的数据分析的任务,也能根据需求随时增加或减少集群资源。Redshift是完全托管平台,承担了大量的集群管理、数据库管理、监控、集群健康检查、备份、升级等工作,让您能专注业务分析,无需花大量时间在服务器管理,安全及数据备份等工作上。


2、为数据仓库而优化的架构:Amazon Redshift基于企业级PostgreSQL数据库,有大规模并行处理 (MPP) 架构,MPP可以通过将数据分布到各个计算节点来解决海量数据的处理难题。在Redshift中,每个集群有1个管理节点和多个计算节点,集群内部使用私有、高速、 低延时的网络连接。每个计算节点都有单独的CPU,内存和附加存储,并且每个计算节点有多个分区,您的数据被分布保存在计算节点的多个分区内,因此每个分区的数据量大大减少,您的查询会在多个分区并行执行,大大的增加了查询的效率。

将数据仓库从AWS Redshift迁移

3、高性能:很多用户使用Redshift获得了几十倍甚至上百倍的查询加速,Redshift能为您提供非常高效的查询性能,除了专为数据仓库而优化的架构外,


4、成本低:使用Redshift无需昂贵的服务器及管理人员成本,仅按使用量付费,并且可以通过购买预留实例来进一步减少成本,实际成本只有传统数据仓库分析的十分之一。


5、安全:创建Redshift集群的时候,可以选择启用加密来保护数据仓库中的数据,启用加密后,所有的数据库、系统表及备份数据都会被加密,保障了数据的安全。连接Redshift的时候,您也可以使用SSL连接,保障网络传输安全。另外AWS也通过身份管理IAM,虚拟网络VPC,防火墙安全组等保护您数据的安全 。


6、查询分析:您的应用及工具使用标准的SQL连接Redshift,这意味着开发人员无需为数据分析学习新的技能,您也能使用市场上支持SQL的报表分析工具进行数据的分析。Redshift和很多主流的BI工具的整合已经得到了验证,您可以在AWS的Market Place中寻找合适的BI方案,完成您的数据分析及报表工作。


不管您的数据是否在云中,都能轻松的使用Redshift分析现有数据,对于传统的没有使用云的用户,只需要先将数据文件上传到AWS中。AWS提供了多种途径将云中的数据加载到Redshift中。

二、如何将数据仓库从AWS Redshift迁移?


使用本地旧版数据仓库时,扩展数据仓库的大小或提高性能可能意味着购买新硬件或添加功能更强大的硬件。这通常既昂贵又耗时。要运行自己的本地数据仓库,还需要聘请数据库经理和管理员来处理中断、升级和数据访问请求。随着企业愈发依赖数据,对集中式数据的可靠访问变得越来越重要。


迁移过程


在此部分中,我们将查看迁移过程的三个高级步骤。两步式迁移策略和波浪式迁移策略涉及所有三个迁移步骤。但是,波浪式迁移策略包括多次迭代。因为一步式迁移仅适用于无需连续操作的数据库,所以该迁移过程中只涉及到步骤 1 和步骤 2。


步骤 1:转换架构和主题区域

在此步骤中,您可以使用架构转换工具(如 AWS Schema Conversion Tool(AWS SCT),以及 AWS 合作伙伴提供的其他工具)转换源数据仓库架构,从而使源数据仓库架构与 Amazon Redshift 架构兼容。在某些情况下,您可能还需要使用自定义代码来执行复杂的架构转换。我们将在后面的部分中深入探讨 AWS SCT 和迁移最佳实践。


步骤 2:初始数据提取和加载

在此步骤中,您将完成初始数据提取,并将源数据首次加载到 Amazon Redshift 中。如果您的数据大小和数据传输要求允许通过互联的网络传输数据,则您可以使用 AWS SCT 数据提取器从源数据仓库中提取数据,并将数据加载到 Amazon S3 中。或者,如果存在网络容量等限制,您可以将数据装入 Snowball,然后将数据加载到 Amazon S3。当源数据仓库中的数据在 Amazon S3 上可用时,它就会加载到 Amazon Redshift 中。如果源数据仓库原生工具能够比 AWS SCT 数据提取器更好地完成数据卸载和加载作业,可以选择使用原生工具来完成此步骤。

步骤 3:差异或增量加载

在此步骤中,您将使用 AWS SCT,有时也可使用源数据仓库原生工具来捕获差异数据或增量数据,并将其从源加载到 Amazon Redshift。这通常被称为更改数据捕获(CDC, Change Data Capture)。CDC 过程捕获在数据库中所做的更改,并确保将这些更改复制到目标位置,例如数据仓库。


现在,您应该掌握了足够的信息,可以开始为数据仓库制定迁移计划。在接下来的部分中,我将深入探讨帮助您将数据仓库迁移到 Amazon Redshift 的 AWS 服务,以及使用这些服务加速成功交付数据仓库迁移项目的最佳实践。

数据仓库迁移服务


数据仓库迁移涉及到使用一系列的服务和工具来支持迁移过程。首先,您将创建数据库迁移评估报告,然后使用 AWS SCT 将源数据架构转换为与 Amazon Redshift 兼容的架构。要迁移数据,您可以使用与 AWS Data Migration Service(AWS DMS)集成的 AWS SCT 数据提取工具,创建和管理 AWS DMS 任务以及编排数据迁移。


要通过源与 AWS 之间的互联网络传输源数据,您可以使用 AWS Storage Gateway、Amazon Kinesis Data Firehose、Direct Connect、AWS Transfer Family 服务、Amazon S3 Transfer Acceleration 以及 AWS DataSync。对于涉及大量数据的数据仓库迁移,或者如果互联网络容量有限,您可以使用 AWS Snow Family 服务传输数据。通过这种方法,您可以将数据复制到设备,然后将设备送回 AWS,通过 Amazon S3 将数据复制到 Amazon Redshift 中。


对于帮助您加快数据仓库向 Amazon Redshift 的迁移,AWS SCT 是一项必不可少的服务。我们来更深入地研究一下。


使用 AWS SCT 进行迁移


AWS SCT 可自动执行将数据仓库架构转换为 Amazon Redshift 数据库架构的大部分流程。由于源数据库引擎和目标数据库引擎可能会有许多不同的特性和功能,因此 AWS SCT 会尝试尽可能在目标数据库中创建等效的架构。如果无法直接转换,AWS SCT 会创建数据库迁移评估报告来帮助您转换架构。数据库迁移评估报告提供了有关从源数据库到目标数据库的架构转换的重要信息。该报告汇总所有模式转换任务,并针对无法转换为目标数据库的数据库引擎的架构对象,详细说明了操作项。该报告还针对为无法转换的架构在目标数据库中编写等效代码的工作,估算了所需的工作量。


存储优化是数据仓库转换的重中之重。使用您的 Amazon Redshift 数据库作为源,将测试 Amazon Redshift 数据库作为目标,AWS SCT 可以推荐用于优化数据库的排序键和分配键。


借助 AWS SCT,您可以将以下数据仓库架构转换为 Amazon Redshift:

在 AWS,我们将不断发布新功能和增强功能来改进产品。有关最新支持的转换,请访问 AWS SCT 用户指南。


使用 AWS SCT 数据提取工具迁移数据


您可以使用 AWS SCT 数据提取工具,从本地部署数据仓库中提取数据并将其迁移到 Amazon Redshift。代理会提取您的数据并将数据上传到 Amazon S3,对于大规模迁移,可以将数据上传到 AWS Snowball Family 服务。然后,您可以使用 AWS SCT 将数据复制到 Amazon Redshift。Amazon S3 是一种存储和检索服务。要在 Amazon S3 中存储对象,您需要将所存储的文件上传到 S3 存储桶。上传文件时,您可以在对象上设置权限,也可以对任何元数据设置权限。


在涉及将数据上传到 AWS Snowball Family 服务的大规模迁移中,您可以使用 AWS SCT 中基于向导的工作流,这样数据提取工具可以自动编排 AWS DMS 以执行实际迁移的流程。


相关产品
HKT4为您的网站提供全球IDC资源
立即免费测试