IT 行业从诞生之初就将术语作为武器。在 90 年代和 21 世纪初期,术语是造成供应商锁定局面的关键因素。此外,复杂的可用性有助于建立经过认证(即昂贵且有利可图)的咨询人员网络。
IT 近期经历了向开放性和标准化的大规模转变。然而,术语锁定问题已演变为 令人困惑的流行语 听起来像是一个内部人士或者技术达人。
对于数据湖,我们遇到了同样的混乱,这是由不断变化的 捷克共和国电话号码数据 术语造成的。数据湖的关键组件和概念有许多不同的名称。此外,由于术语造成的混乱,数据湖策略可能会让人不知所措。
本文旨在提供一些见解并澄清基本的数据湖术语。此外,我们将讨论与数据湖整个周期交互的基本角色。我们希望以数据为中心的组织会发现这篇文章很有用。
数据湖是云存储系统,如 S3 和 Blob,以原始格式存储数据(例如 Jason、txt、CSV、HTML、日志、二进制文件等)。Hadoop 引入了这项技术作为 大数据 21 世纪初,Hadoop 出现了。但是 Hadoop 固有的复杂性使其成为一种小众解决方案。
如今,许多数据湖替代方案都可以查询原始数据并像在 数据仓库,使得数据湖非常流行。随着这一新发展,出现了一个令人困惑的流行词:数据湖屋或虚拟数据仓库。尽管如此,数据湖屋绝不是提高可用性的简单升级。