大家肯定都听说过大数据。这是指网络上可用的天文数字般的数据量。负责该项目的工程师正在开发更高效的系统,以便能够有效地处理和存储这些数据。如今,数据可以达到数PB或EB,这已不再是罕见的事。开发人员有用于此目的的软件平台。这允许执行复杂的计算操作以便在不同的节点之间共享它们。为此,Apache Hadoop软件受到广泛赞赏。这个框架是大数据的基础。
Apache Hadoop是一个开源软件框架,创建于2006年,它允许将大型数据集分成块,分布在多台服务器上进行存储 和处理。Hadoop的优势在于服务器网络(称为 Hadoop 集群),其处理数据的速度比单台机器快得多。非营利 阿尔巴尼亚电话号码数据 性的 Apache 软件基金会支持免费的开源 Apache Hadoop 项目,但商业版本也已经变得非常普遍。
Hadoop 集群通过将数据分布在多台服务器上来提高存储容量和文件冗余。
目前,该框架有多种不同的版本可供选择。确实,如果你去 Cloudera 的话,就会有一个名为“企业就绪”的 Hadoop 实例。本实例是开源的。Hortonworks 和 Teradata等其他供应商也提供许多类似的产品。
Hadoop 结构:构造和基本元素
当我们谈论 Hadoop 时,我们通常指的是整个软件生态系统。该框架有许多扩展,如Pig、Chkwa 等等。这使得处理大量数据成为可能。所有这些项目都得到了Apache 软件基金会的支持。