什么是数据湖仓？– 数据湖仓解析 – AWS-365账号限制登录不了-365账号限制登录不了-365bet体育在线大陆-365bet体育比分直播

数据湖仓为企业提供了构建可扩展、复杂且低延迟数据处理中心所需的数据管理功能。下文将介绍数据湖仓的部分核心特性。

支持多种数据类型与工作负载

数据湖仓可存储文本、图片、视频及音频文件等多种数据类型，且无需额外的数据转换步骤，也不依赖固定的数据模式。这有助于快速进行数据摄取，确保关联应用程序的数据新鲜度。

为满足数据多样性的需求，数据湖仓会将原始数据存储在对象存储中。对象存储是一种数据存储架构，针对海量非结构化数据的处理进行了专项优化。

支持事务处理

数据湖仓具备数据管理功能，可存储符合 ACID 特性的事务，这一点与传统数据库的事务处理能力类似。其中，ACID 是原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）和持久性（Durability）的缩写。

“原子性”将所有数据事务视为一个不可分割的整体，这意味着事务要么完全执行成功，要么完全不执行。

“一致性”指数据库在更新特定数据表时会呈现可预测的行为。每一次更新都需遵循预先定义的规则，确保维持数据一致性。

“隔离性”允许多个事务同时发生且互不干扰。即使多名用户并发更新数据库，每个操作仍独立运行，即前一个事务完成后，后一个事务才会开始。

“持久性”指数据库在系统故障时仍能保持已保存更改的能力。

ACID 机制共同保障了数据完整性，使软件开发团队能够构建依赖可靠事务型数据存储的应用程序。

流式摄取

数据流指从物联网（IoT）设备、金融交易记录、应用服务日志等各类数据来源持续产生的信息流，具有实时、连续的特点。

部分应用场景需要通过数据流来近乎实时地反映并可视化数据变化。数据湖仓架构能够直接摄取这些数据流，并将其提供给面向用户的应用程序使用。此外，数据科学家也可基于这些数据流构建分析工具，通过图表、表格、图形等形式对数据进行可视化呈现。

零 ETL 集成

零 ETL 是一种数据处理方式，在数据迁移过程中可绕开复杂的数据转换管道。数据湖仓基础设施支持零 ETL 集成。

传统上，企业会在数据仓库和数据湖的基础上构建自身的工作负载。这类数据架构需要额外搭建 ETL 管道，才能对数据进行查询和转换。而借助零 ETL 集成，数据科学家无需构建额外的数据管道，就能直接查询不同的数据孤岛。

当数据湖仓摄取数据后，会自动将数据转换为符合业务分析需求的格式。例如，Amazon Redshift 支持通过 Amazon Aurora 进行零 ETL 集成。Redshift 是一个数据仓库，而 Aurora 是一个关系数据库管理系统。集成后，Aurora 摄取的数据会在几秒钟内自动同步到 Redshift。通过这种方式，企业既能缩短获取洞察的时间，又能维持简洁且经济高效的数据基础设施。

统一分析

数据湖仓提供了统一的数据平台，可实现对所有存储数据的集中访问。这一特性帮助数据架构师解决了多系统间数据重复、数据不一致以及数据碎片化等问题。

集中式分析的另一核心优势在于，能避免云存储之间不必要的数据迁移，减少资源浪费与延迟。数据团队无需在多个数据孤岛中分别查询数据，而是通过一个连接数据湖仓的统一界面，即可完成数据的存储、分析与共享。例如，您可基于同一份数据，既提取非结构化数据用于机器学习工作负载，又生成市场营销绩效报告。

查询编辑器

数据分析师、机器学习工程师及其他数据使用者，可通过 SQL 查询编辑器轻松访问数据湖仓中的数据。他们能编写 SQL 命令用于数据分析、数据可视化，还可浏览历史数据、创建数据库模式等操作。此外，查询编辑器还能让数据工程师轻松共享自己创建的查询语句，从而有效提升团队协作效率。

支持机器学习/人工智能

数据湖仓支持用户构建、测试人工智能与机器学习（AI/ML）工作负载，并能实现其规模化部署。除了提供非结构化数据的直接访问权限外，许多数据湖仓服务商还会提供机器学习库、工具及分析功能，能够简化人工智能的开发流程。

例如，Amazon SageMaker 智能湖仓可 Amazon SageMaker 融通式合作开发工作室实现无缝集成，为用户提供各类工具与分析功能，助力加速人工智能与机器学习的工作流程。

什么是数据湖仓？– 数据湖仓解析 – AWS

相关文章

采访了100位直播用户，《2021抖音女主播图鉴》来了

美国海关：合理谨慎指南

2017年美国E3游戏展

友情链接