本文主要面向具體使用,適用于已熟悉java編程的lucene初學(xué)者。
1. Lucene的簡介
1.1 Lucene 歷史
org.apache.lucene包是純java語言的全文索引檢索工具包。
Lucene的作者是資深的全文索引/檢索專家,最開始發(fā)布在他本人的主頁上,2001年10月貢獻(xiàn)給APACHE,成為APACHE基金jakarta的一個子項(xiàng)目。
目前,lucene廣泛用于全文索引/檢索的項(xiàng)目中。
lucene也被翻譯成C#版本,目前發(fā)展為Lucene.Net(不過最近好象有流產(chǎn)的消息)。
1.2 Lucene 原理
lucene的檢索算法屬于索引檢索,即用空間來換取時間,對需要檢索的文件、字符流進(jìn)行全文索引,在檢索的時候?qū)λ饕M(jìn)行快速的檢索,得到檢索位置,這個位置記錄檢索詞出現(xiàn)的文件路徑或者某個關(guān)鍵詞。
在使用數(shù)據(jù)庫的項(xiàng)目中,不使用數(shù)據(jù)庫進(jìn)行檢索的原因主要是:數(shù)據(jù)庫在非精確查詢的時候使用查詢語言“like %keyword%”,對數(shù)據(jù)庫進(jìn)行查詢是對所有記錄遍歷,并對字段進(jìn)行“%keyword%”匹配,在數(shù)據(jù)庫的數(shù)據(jù)龐大以及某個字段存儲的數(shù)據(jù)量龐大的時候,這種遍歷是致命的,它需要對所有的記錄進(jìn)行匹配查詢。因此,lucene主要適用于文檔集的全文檢索,以及海量數(shù)據(jù)庫的模糊檢索,特別是對數(shù)據(jù)庫的xml或者大數(shù)據(jù)的字符類型。
2.Lucene的下載和配置
2.1 Lucene的下載
lucene在jakarta項(xiàng)目中的發(fā)布主頁:
http://jakarta.apache.org/lucene/docs/index.html。以下主要針對windows用戶,其它用戶請?jiān)谏厦娴牡刂分胁檎蚁嚓P(guān)下載。
lucene的.jar包的下載(包括.jar和一個范例demo):
http://apache.oregonstate.edu/jakarta/lucene/binaries/lucene-1.4-final.ziplucene的源代碼下載:
http://www.signal42.com/mirrors/apache/jakarta/lucene/source/lucene-1.4-final-src.ziplucene的api地址:
http://jakarta.apache.org/lucene/docs/api/index.html本文使用lucene版本:lucene-1.4-final.jar。
2.2 lucene的配置
首先請確定你的機(jī)子已經(jīng)進(jìn)行了java使用環(huán)境的基本配置,即確保在某個平臺下能夠運(yùn)行java源代碼,否則請查閱相關(guān)文檔進(jìn)行配置。
接下來進(jìn)入lucene的配置:
普通使用者:在環(huán)境變量的CLASSPATH中添加lucene的位置。比如:“D:\java \lucene-1.4-final\lucene-1.4-final.jar;”。
jbuilder使用者:在“Project”--“Project Properties”--“Required Libraries”進(jìn)行添加。
Jsp使用者:也可以直接將lucene-1.4-final.jar文件放到\WEB-INF\classes下。
3. Lucene 的范例(Demo )
3.1 Demo說明
可以得到的Demo包括:lucene-demos-1.4-final、XMLIndexingDemo,lucene-demos-1.4-final中包括對普通文件和html文件的兩種索引,XMLIndexingDemo針對xml文件的索引。他們的區(qū)別主要在于:對普通文件進(jìn)行索引時只要對文件的全文進(jìn)行索引,而針對html、xml文件時,對標(biāo)簽類型不能進(jìn)行索引,在實(shí)現(xiàn)上:html、xml的索引需要額外的數(shù)據(jù)流分析器,以分析哪些內(nèi)容有用哪些無用。因此,在后兩者實(shí)現(xiàn)上,索引的時間額外開支,甚至超過索引本身時間,而檢索時間沒有區(qū)別。
以上Demo中,lucene-demos-1.4-final自帶于lucene-1.4-final.zip中,XMLIndexingDemo的下載地址:
http://cvs.apache.org/viewcvs.cgi/jakarta-lucene-sandbox/contributions/XML-Indexing-Demo/3.2 Demo的運(yùn)行
首先將demo.jar的路徑添加如環(huán)境變量的CLASSPATH中,例如:“D:\java\lucene-1.4-final\lucene-demos-1.4-final.jar;”,同時確保已經(jīng)添加lucene-1.4-final.jar。
然后進(jìn)行文件的全文索引,在dos控制臺中,輸入命令“java org.apache.lucene.demo.IndexFiles {full-path-to-lucene}/src”,后面的路徑為所要進(jìn)行索引的文件夾,例如:“java org.apache.lucene.demo.IndexFiles c:\test”。
接著對索引進(jìn)行檢索,敲入“java org.apache.lucene.demo.SearchFiles”,在提示“Query:”后輸入檢索詞,程序?qū)⑦M(jìn)行檢索列出檢索得到的結(jié)果(檢索詞出現(xiàn)的文件路徑)。
其他Demo的運(yùn)行請參考\docs\demo.html。
在運(yùn)行Demo后請閱讀Demo的源代碼以便深入學(xué)習(xí)。
4. 利用Lucene進(jìn)行索引
進(jìn)行l(wèi)ucene的熟悉后,我們將學(xué)習(xí)如何使用Lucene。
一段索引的應(yīng)用實(shí)例:
//需要捕捉IOException異常
//建立一個IndexWriter,索引保存目錄為“index”
String[] stopStrs = {
"他奶奶的", "fuck"};
StandardAnalyzer analyzer = new StandardAnalyzer(stopStrs);
IndexWriter writer = new IndexWriter("index", analyzer, true);
//添加一條文檔
Document doc = new Document();
doc.add(Field.UnIndexed("id", "1"));//“id”為字段名,“1”為字段值
doc.add(Field.Text("text", "fuck,他奶奶的,入門與使用"));
writer.addDocument(doc);
//索引完成后的處理
writer.optimize();
writer.close();
看完這段實(shí)例后,我們開始熟悉lucene的使用:
4.1 Lucene的索引接口
在學(xué)習(xí)索引的時候,首先需要熟悉幾個接口:
4.1.1分析器Analyzer
分析器主要工作是篩選,一段文檔進(jìn)來以后,經(jīng)過它,出去的時候只剩下那些有用的部分,其他則剔除。而這個分析器也可以自己根據(jù)需要而編寫。
org.apache.lucene.analysis.Analyzer:這是一個虛構(gòu)類,以下兩個借口均繼承它而來。
org.apache.lucene.analysis.SimpleAnalyzer:分析器,支持最簡單拉丁語言。
org.apache.lucene.analysis.standard.StandardAnalyzer:標(biāo)準(zhǔn)分析器,除了拉丁語言還支持亞洲語言,并在一些匹配功能上進(jìn)行完善。在這個接口中還有一個很重要的構(gòu)造函數(shù):StandardAnalyzer(String[] stopWords),可以對分析器定義一些使用詞語,這不僅可以免除檢索一些無用信息,而且還可以在檢索中定義禁止的政治性、非法性的檢索關(guān)鍵詞。
4.1.2 IndexWriter
IndexWriter的構(gòu)造函數(shù)有三種接口,針對目錄Directory、文件File、文件路徑String三種情況。
例如IndexWriter(String path, Analyzer a, boolean create),path為文件路徑,a為分析器,create標(biāo)志是否重建索引(true:建立或者覆蓋已存在的索引,false:擴(kuò)展已存在的索引。)
一些重要的方法:
接口名
備注
addDocument(Document doc)
索引添加一個文檔
addIndexes(Directory[] dirs)
將目錄中已存在索引添加到這個索引
addIndexes(IndexReader[] readers)
將提供的索引添加到這個索引
optimize()
合并索引并優(yōu)化
close()
關(guān)閉
IndexWriter為了減少大量的io維護(hù)操作,在每得到一定量的索引后建立新的小索引文件(筆者測試索引批量的最小單位為10),然后再定期將它們整合到一個索引文件中,因此在索引結(jié)束時必須進(jìn)行wirter. optimize(),以便將所有索引合并優(yōu)化。
4.1.3 org.apache.lucene.document
以下介紹兩種主要的類:
a)org.apache.lucene.document.Document:
Document文檔類似數(shù)據(jù)庫中的一條記錄,可以由好幾個字段(Field)組成,并且字段可以套用不同的類型(詳細(xì)見b)。Document的幾種接口:
接口名
備注
add(Field field)
添加一個字段(Field)到Document中
String get(String name)
從文檔中獲得一個字段對應(yīng)的文本
Field getField(String name)
由字段名獲得字段值
Field[] getFields(String name)
由字段名獲得字段值的集
b)org.apache.lucene.document.Field
即上文所說的“字段”,它是Document的片段section。
Field的構(gòu)造函數(shù):
Field(String name, String string, boolean store, boolean index, boolean token)。
Indexed:如果字段是Indexed的,表示這個字段是可檢索的。
Stored:如果字段是Stored的,表示這個字段的值可以從檢索結(jié)果中得到。
Tokenized:如果一個字段是Tokenized的,表示它是有經(jīng)過Analyzer轉(zhuǎn)變后成為一個tokens序列,在這個轉(zhuǎn)變過程tokenization中,Analyzer提取出需要進(jìn)行索引的文本,而剔除一些冗余的詞句(例如:a,the,they等,詳見org.apache.lucene.analysis.StopAnalyzer.ENGLISH_STOP_WORDS和org.apache.lucene.analysis.standard.StandardAnalyzer(String[] stopWords)的API)。Token是索引時候的基本單元,代表一個被索引的詞,例如一個英文單詞,或者一個漢字。因此,所有包含中文的文本都必須是Tokenized的。
Field的幾種接口:
Name
Stored
Indexed
Tokenized
use
Keyword(String name,
String value)
Y
Y
N
date,url
Text(String name, Reader value)
N
Y
Y
short text fields:
title,subject
Text(String name, String value)
Y
Y
Y
longer text fields,
like “body”
UnIndexed(String name,
String value)
Y
N
N
UnStored(String name,
String value)
N
Y
Y
5. 利用Lucene進(jìn)行檢索
5.1 一段簡單的檢索代碼
//需要捕捉IOException,ParseException異常
//處理檢索條件
Query query = QueryParser.parse("入門", "text", analyzer);
//檢索
Searcher searcher = new IndexSearcher("./index");//"index"指定索引文件位置
Hits hits = searcher.search(query);
//打印結(jié)果值集
for (int i = 0; i < hits.length(); i++) {
Document doc = hits.doc(i);
String id = doc.get("id");
System.out.println("found " + "入門" + " on the id:" + id);
}
5.2 利用Lucene的檢索接口
5.2.1 Query與QueryParser
主要使用方法:
QueryParser .parse(String query, String field, Analyzer analyzer),例如:
Query query = QueryParser.parse("入門", "text", analyzer);
"入門"為檢索詞, "text"為檢索的字段名, analyzer為分析器
5.2.2 Hits與Searcher
Hits的主要使用接口:
接口名
備注
Doc(int n)
返回第n個的文檔的所有字段
length()
返回這個集中的可用個數(shù)
6. Lucene的其他使用
6.1 Lucene 的索引修改
下面給出一段修改索引的代碼,請根據(jù)Lucene的API解讀:
/**
* 對已有的索引添加新的一條索引
* @param idStr String:要修改的id
* @param doc Document:要修改的值
*/
public void addIndex(String idStr, String valueStr) {
StandardAnalyzer analyzer = new StandardAnalyzer();
IndexWriter writer = null;
try {
writer = new IndexWriter(indexPath, analyzer, false);
writer.mergeFactor = 2; //修正lucene 1.4.2 bug,否則不能正確反映修改
Document doc = new Document();
doc.add(Field.UnIndexed("id", idStr));//“id”為字段名,“1”為字段值
doc.add(Field.Text("text", valueStr));
writer.addDocument(doc);
writer.optimize();
writer.close();
}
catch (IOException ioe) {
ioe.printStackTrace();
}
}
/**
* 刪除索引
*
* @param idStr String
*/
public void deleteIndex(String idStr) {
try {
Directory dirt = FSDirectory.getDirectory(indexPath, false);
IndexReader reader = IndexReader.open(dirt);
Term term = new Term("text", idStr);
reader.delete(term);
reader.close();
dirt.close();
}
catch (IOException ioe) {
ioe.printStackTrace();
}
}
6.2 Lucene 的檢索結(jié)果排序
Lucene的排序主要是對org.apache.lucene.search.Sort的使用。Sort可以直接根據(jù)字段Field生成,也可以根據(jù)標(biāo)準(zhǔn)的SortField生成,但是作為Sort的字段,必須符合以下的條件:唯一值以及Indexed??梢詫ntegers, Floats, Strings三種類型排序。
對整數(shù)型的ID檢索結(jié)果排序只要進(jìn)行以下的簡單操作:
Sort sort = new Sort("id");
Hits hits = searcher.search(query, sort);
用戶還可以根據(jù)自己定義更加復(fù)雜的排序,詳細(xì)請參考API。
7 總結(jié)
Lucene給java的全文索引檢索帶來了非常強(qiáng)大的力量,以上僅對Lucene進(jìn)行簡單的入門說明。
xio@qq.com
參考資料:
1. Overview (Lucene 1.4-final API)
2. 車東 《在應(yīng)用中加入全文檢索功能--基于JAVA的全文索引引擎Lucene簡介》
3.
http://www.mail-archive.com/lucene-user@jakarta.apache.org/index.html