Apache Lucene 5.x版本 示例

http://blog.csdn.net/isea533/article/details/48791309

由于目前网上关于lucene的资料多是4.x或者更早版本的,5.x版本相比有较大的改动,为了方便学习5.x版本,本文对5.x的示例简单修改做个记录。

本文内容源自官方文档,在core/overview-summary.html上。

本文使用的具体版本是5.3.1,针对5.x版本都适用。

简单例子

Apache Lucene 是一个高性能并且功能全面的文本搜索引擎库,这里有一个如何使用Lucene进行索引和查询的简单例子。

代码输出结果:
Mybatis 示例之 foreach (下)
Mybatis 示例之 foreach (上)
Lucene API 分成了下面几个包

org.apache.lucene.analysis

定义了从Reader转换为TokenStream的抽象AnalyzerAPI,主要就是分词器。提供了一些默认的实现,包含StopAnalyzer和基于文法的StandardAnalyzer。中文分词可以参考 中文分词库 IKAnalyzer。

org.apache.lucene.codecs

提供了一个抽象的编码和解码的倒排索引结构,还提供了一些不同的实现可以应用于不同的程序需求。

org.apache.lucene.document

提供了一个简单的Document类。一个文档只是一组命名的字段,它的值可以是字符串或者Reader的实例。

org.apache.lucene.index

提供了两个主要的类:IndexWriter用于创建和给文档添加索引,IndexReader用于访问索引数据。

org.apache.lucene.search

提供代表查询的数据结构(例如TermQuery用于单独的关键字查询,PhraseQuery用于短句,BooleanQuery用于布尔联合查询)。
IndexSearcher将查询转换为TopDocs。一些QueryParsers提供了从字符串或者xml生成查询结构的功能。

org.apache.lucene.store

定义了一个抽象类来存储持久化数据,Directory这是一个由IndexOutput和IndexInput分别写和读取的指定文件的集合。提供了多个实现,包括FSDirectory,这个实现使用文件系统目录来存储文件。还有RAMDirectory类实现了文件驻留在内存中的数据结构。

org.apache.lucene.util

包含了一些有用的数据结构和工具类,例如FixedBitSet和PriorityQueue。

应用应该按下面的步骤使用Luncene

通过添加字段(Field)创建文档(Document);

创建IndexWriter,通过addDocument()方法添加文档(Document);

调用QueryParser.parser()方法从字符串生成查询对象;

创建IndexSearcher并通过search()方法进行查询。

最后

以上内容是Luncene中最基本的内容,关于上面每个包下面都还有一份详细的文档,本文后续可能会对这些内容做一些简单的介绍,如果大家需要用到Luncene,建议下载官方提供的下载,里面包含完整的文档内容。