2004年诞生的Nutch搜索引擎,其基于Lucence的架构能够高效抓取互联网网页数据。然而,随之而来的海量非结构化数据存储问题成为了Nutch发展的瓶颈。关系型数据库无法有效处理此类数据,而解决数据存储和管理是提供搜索服务,包括算法优化检索速度等后续工作的基础。