前言

第一章 引论

第一节 搜索引擎的概念

第二节 搜索引擎的发展历史

第三节 一些著名的 搜索引擎

上篇 WEB 搜索引擎基本原理和技术

第二章 WEB 搜索引擎工作原理和体系结构

第一节 基本要求

第二节 网页搜集

第三节 预处理

第四节 查询服务

第五节 体系结构

第三章 WEB信息的搜集

第一节 引言

一、超文本传输协议

二、一个小型 搜索引擎 系统

第二节 网页搜集

一、定义 URL 类和 Page 类

二、与服务器建立连接

三、发送请求和接收数据

四、网页信息存储的天网格式

第三节 多道搜集程序并行工作

第四节 如何避免网页的重复搜集

第五节 如何首先搜集重要的网页

第六节 搜集信息的类型

第七节 本章小结

第四章 对搜集信息的预处理

第一节 信息预处理的系统结构

第二节 索引网页库

第三节 中文自动分词

第四节 分析网页和建立倒排文件

第五节 本章小结

第五章 信息查询服务

第一节 查询服务的系统结构

第二节 检索的定义

第三节 查询服务的实现

第四节 本章小结

中篇 对质量和性能的追求

第六章 可扩展搜集子系统

第一节 天网系统概述和集中式搜集系统结构

第二节 利用并行处理技术高效搜集网页的一种方案

第三节 本章小结

第七章 网页净化与消重

第一节 网页净化与元数据提取