2009年4月,Doug Cutting在加州的Shed in the Yard,回顾了Hadoop的起源。Hadoop诞生于Nutch项目,当时他们团队致力于构建一个开源网络搜索引擎,却在管理少量计算机上的计算任务时遇到了难题。谷歌发表的GFS和MapReduce论文为他们指明了方向,因为这些系统正是为了解决Nutch所面临的问题而设计的。于是,Cutting和另一位开发者开始兼职尝试在Nutch中复刻这些系统。
他们成功地让Nutch在20台机器上运行,但很快意识到,要处理网络的海量数据,需要在数千台机器上运行,而且这项工作也超出了两位兼职开发者的能力范围。
大约在同一时间,雅虎对这个项目产生了兴趣,并迅速组建了一支Cutting也加入了的团队。他们将Nutch的分布式计算部分分离出来,命名为Hadoop。在雅虎的支持下,Hadoop迅速发展成为一项能够真正扩展到网络规模的技术。2006年,……