Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要用于解决海量数据的存储及分析计算问题。以下是对Hadoop的详细介绍:
目录
一、Hadoop的起源与发展
二、Hadoop的核心组件
1.HDFS:
2.MapReduce:
3.YARN:
三、Hadoop的优点
1.高可靠性:
2.高扩展性:
3.高效性:
4.高容错性:
5.低成本:
四、Hadoop的应用场景
一、Hadoop的起源与发展
Hadoop起源于Apache Nutch项目,该项目始于2002年,是Apache Lucene的子项目之一。
2004年,受到Google发表的MapReduce论文的启发,Doug Cutting等人开始尝试实现MapReduce计算框架,并将其与NDFS(Nutch Distributed File System)结合,用以支持Nutch引擎的主要算法。
由于NDFS和MapReduce在Nutch引擎中有着良好的应用,它们于2006年2月被分离出来,成为一套完整而独立的软件,并被命名为Hadoop。
到了2008年年初,Hadoop已成为Apache的顶级项目,包含众多子项目,并被应用到包括Yahoo在内的很多互联网公司。
二、Hadoop的核心组件
Hadoop主要由三大核心组件构成: