什么是数据湖仓?– 数据湖仓解析 – AWS

什么是数据湖仓?– 数据湖仓解析 – AWS

数据湖仓为企业提供了构建可扩展、复杂且低延迟数据处理中心所需的数据管理功能。下文将介绍数据湖仓的部分核心特性。

支持多种数据类型与工作负载

数据湖仓可存储文本、图片、视频及音频文件等多种数据类型,且无需额外的数据转换步骤,也不依赖固定的数据模式。这有助于快速进行数据摄取,确保关联应用程序的数据新鲜度。

为满足数据多样性的需求,数据湖仓会将原始数据存储在对象存储中。对象存储是一种数据存储架构,针对海量非结构化数据的处理进行了专项优化。

支持事务处理

数据湖仓具备数据管理功能,可存储符合 ACID 特性的事务,这一点与传统数据库的事务处理能力类似。其中,ACID 是原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性(Durability)的缩写。

“原子性”将所有数据事务视为一个不可分割的整体,这意味着事务要么完全执行成功,要么完全不执行。

“一致性”指数据库在更新特定数据表时会呈现可预测的行为。每一次更新都需遵循预先定义的规则,确保维持数据一致性。

“隔离性”允许多个事务同时发生且互不干扰。即使多名用户并发更新数据库,每个操作仍独立运行,即前一个事务完成后,后一个事务才会开始。

“持久性”指数据库在系统故障时仍能保持已保存更改的能力。

ACID 机制共同保障了数据完整性,使软件开发团队能够构建依赖可靠事务型数据存储的应用程序。

流式摄取

数据流指从物联网(IoT)设备、金融交易记录、应用服务日志等各类数据来源持续产生的信息流,具有实时、连续的特点。

部分应用场景需要通过数据流来近乎实时地反映并可视化数据变化。数据湖仓架构能够直接摄取这些数据流,并将其提供给面向用户的应用程序使用。此外,数据科学家也可基于这些数据流构建分析工具,通过图表、表格、图形等形式对数据进行可视化呈现。

零 ETL 集成

零 ETL 是一种数据处理方式,在数据迁移过程中可绕开复杂的数据转换管道。数据湖仓基础设施支持零 ETL 集成。

传统上,企业会在数据仓库和数据湖的基础上构建自身的工作负载。这类数据架构需要额外搭建 ETL 管道,才能对数据进行查询和转换。而借助零 ETL 集成,数据科学家无需构建额外的数据管道,就能直接查询不同的数据孤岛。

当数据湖仓摄取数据后,会自动将数据转换为符合业务分析需求的格式。例如,Amazon Redshift 支持通过 Amazon Aurora 进行零 ETL 集成。Redshift 是一个数据仓库,而 Aurora 是一个关系数据库管理系统。集成后,Aurora 摄取的数据会在几秒钟内自动同步到 Redshift。通过这种方式,企业既能缩短获取洞察的时间,又能维持简洁且经济高效的数据基础设施。

统一分析

数据湖仓提供了统一的数据平台,可实现对所有存储数据的集中访问。这一特性帮助数据架构师解决了多系统间数据重复、数据不一致以及数据碎片化等问题。

集中式分析的另一核心优势在于,能避免云存储之间不必要的数据迁移,减少资源浪费与延迟。数据团队无需在多个数据孤岛中分别查询数据,而是通过一个连接数据湖仓的统一界面,即可完成数据的存储、分析与共享。例如,您可基于同一份数据,既提取非结构化数据用于机器学习工作负载,又生成市场营销绩效报告。

查询编辑器

数据分析师、机器学习工程师及其他数据使用者,可通过 SQL 查询编辑器轻松访问数据湖仓中的数据。他们能编写 SQL 命令用于数据分析、数据可视化,还可浏览历史数据、创建数据库模式等操作。此外,查询编辑器还能让数据工程师轻松共享自己创建的查询语句,从而有效提升团队协作效率。

支持机器学习/人工智能

数据湖仓支持用户构建、测试人工智能与机器学习(AI/ML)工作负载,并能实现其规模化部署。除了提供非结构化数据的直接访问权限外,许多数据湖仓服务商还会提供机器学习库、工具及分析功能,能够简化人工智能的开发流程。

例如,Amazon SageMaker 智能湖仓 可 Amazon SageMaker 融通式合作开发工作室实现无缝集成,为用户提供各类工具与分析功能,助力加速人工智能与机器学习的工作流程。

相关文章

采访了100位直播用户,《2021抖音女主播图鉴》来了
365bet体育比分直播

采访了100位直播用户,《2021抖音女主播图鉴》来了

📅 01-11 👁️ 9174
美国海关:合理谨慎指南
365bet体育比分直播

美国海关:合理谨慎指南

📅 08-11 👁️ 1150
2017年美国E3游戏展
365账号限制登录不了

2017年美国E3游戏展

📅 02-05 👁️ 2050