本书是一本介绍搜索引擎开发的书籍,通过本书,读者可以独立构建一个企业级的搜索引擎网站。本书讲解了搜索引擎与信息检索基础,Lucene入门实例,索引的建立,使用Lucene来搜索,排序,分析器,对Word、Excel和PDF格式文档的解析,Compass搜索引擎框架,Lucene分布式,爬虫Heritrix,HTMLParser,DWR等内容。最后综合这些技术,构建了一个典型的垂直搜索系统,具有很强的商业实用价值。
本书是一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。
本书适合Java程序员和从事计算机软件开发的编程人员阅读,同时也可以作为搜索引擎爱好者的入门书籍。