如何读取Lucene索引数据

2025-02-25 11:41:03
推荐回答(2个)
回答1:

方法一:依次根据每个docid获取文档然后写入txt中,这样的以来,就避免了内存不足的缺点,但是这样单条读取的话,速度上可能会慢一点,但能满足需求无可厚非。伪代码如下
  Java代码
try{
directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
IndexReader reader=DirectoryReader.open(directory);//读取目录
IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
for(int i=0;i
Document doc=search.doc(i);//依次获取每个docid对应的Document
//可以在此部,做个批量操作,加快写入速度
}
reader.close();//关闭资源
directory.close();//关闭连接
}catch(Exception e){
e.printStackTrace();
}
try{
directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
IndexReader reader=DirectoryReader.open(directory);//读取目录
IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
for(int i=0;i
Document doc=search.doc(i);//依次获取每个docid对应的Document
//可以在此部,做个批量操作,加快写入速度
}
reader.close();//关闭资源
directory.close();//关闭连接
}catch(Exception e){
e.printStackTrace();
}
  Lucene的分页,总的来说有两种形式,小编总结如下图表格。(如果存在不合适之处,欢迎指正!)
编号 方式 优点 缺点
1 在ScoresDocs里进行分页 无需再次查询索引,速度很快 在海量数据时,会内存溢出
2 利用SearchAfter,再次查询分页 适合大批量数据的分页 再次查询,速度相对慢一点,但可以利用缓存弥补
从上图我们可以分析出,ScoreDocs适合在数据量不是很大的场景下进行分页,而SearchAfter则都适合,所以,我们要根据自己的业务需求,合理的选出适合自己的分页方式。
  在我们了解这2中分页技术的优缺点之后,我们再来探讨下上面那个读2亿数据存入txt文本里,在这里,SocreDocs不适合这种场景,当然如果你内存足够大的话,可以尝试下,通用分页分批读取的方式,可以提升我们的写入效率,效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式在本需求上不适合,但是作为示例,下面小编给出使用ScoreDocs进行分页的代码:

Java代码
try{
directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
IndexReader reader=DirectoryReader.open(directory);//读取目录
IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
TopDocs all=search.search(new MatchAllDocsQuery(), 50000);
int offset=0;//起始位置
int pageSize=30;//分页的条数
int total=30;//结束条数
int z=0;
while(z<=50){//总分页数
System.out.println("==============================");
pageScoreDocs(offset,total,search, all.scoreDocs);//调用分页打印
offset=(z*pageSize+pageSize);//下一页的位置增量
z++;//分页数+1;
total=offset+pageSize;//下一次的结束分页量
}
reader.close();//关闭资源
directory.close();//关闭连接
}catch(Exception e){
e.printStackTrace();
}
try{
directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
IndexReader reader=DirectoryReader.open(directory);//读取目录
IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
TopDocs all=search.search(new MatchAllDocsQuery(), 50000);
int offset=0;//起始位置
int pageSize=30;//分页的条数
int total=30;//结束条数
int z=0;
while(z<=50){//总分页数
System.out.println("==============================");
pageScoreDocs(offset,total,search, all.scoreDocs);//调用分页打印
offset=(z*pageSize+pageSize);//下一页的位置增量
z++;//分页数+1;
total=offset+pageSize;//下一次的结束分页量
}
reader.close();//关闭资源
directory.close();//关闭连接
}catch(Exception e){
e.printStackTrace();
}
  Java代码
public void pageScoreDocs(int offset,int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{
//System.out.println("offset:"+offset+"===>"+total);
for(int i=offset;i
//System.out.println("i"+i+"==>"+doc.length);
if(i>doc.length-1){//当分页的长度数大于总数就停止
break;
}else{
Document dosc=searcher.doc(doc[i].doc);
System.out.println(dosc.get("name"));
}
}
public void pageScoreDocs(int offset,int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{
//System.out.println("offset:"+offset+"===>"+total);
for(int i=offset;i
//System.out.println("i"+i+"==>"+doc.length);
if(i>doc.length-1){//当分页的长度数大于总数就停止
break;
}else{
Document dosc=searcher.doc(doc[i].doc);
System.out.println(dosc.get("name"));
}
}
  最后我们来看下使用SearcherAfter进行分页的方式,代码如下:

Java代码
try{
directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
IndexReader reader=DirectoryReader.open(directory);//读取目录
IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
int pageStart=0;
ScoreDoc lastBottom=null;//相当于pageSize
while(pageStart<10){//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作
TopDocs paged=null;
paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(),null,30);//查询首次的30条
if(paged.scoreDocs.length==0){
break;//如果下一页的命中数为0的情况下,循环自动结束
}
page(search,paged);//分页操作,此步是传到方法里对数据做处理的
pageStart+=paged.scoreDocs.length;//下一次分页总在上一次分页的基础上
lastBottom=paged.scoreDocs[paged.scoreDocs.length-1];//上一次的总量-1,成为下一次的lastBottom
}
reader.close();//关闭资源
directory.close();//关闭连接
}catch(Exception e){
e.printStackTrace();
}
try{
directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
IndexReader reader=DirectoryReader.open(directory);//读取目录
IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
int pageStart=0;
ScoreDoc lastBottom=null;//相当于pageSize
while(pageStart<10){//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作
TopDocs paged=null;
paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(),null,30);//查询首次的30条
if(paged.scoreDocs.length==0){
break;//如果下一页的命中数为0的情况下,循环自动结束
}
page(search,paged);//分页操作,此步是传到方法里对数据做处理的
pageStart+=paged.scoreDocs.length;//下一次分页总在上一次分页的基础上
lastBottom=paged.scoreDocs[paged.scoreDocs.length-1];//上一次的总量-1,成为下一次的lastBottom
}
reader.close();//关闭资源
directory.close();//关闭连接
}catch(Exception e){
e.printStackTrace();
}

回答2:

简单地说luncence的索引数据是通过调用IndexReader接口读取的。

lucene的索引一般都比较大,索引数据采用分目录存储,每个存储目录具有一个DocID,因此在实际的使用时需要依次读取所有的目录拼接后再以分页的方式读取。
代码片段:
try{
directory=FSDirectory.open(new
File(indexReadPath));//打开索引文件夹
IndexReader
reader=DirectoryReader.open(directory);//读取目录
IndexSearcher search=new
IndexSearcher(reader);//初始化查询组件
for(int i=0;i
Document
doc=search.doc(i);//依次获取每个docid对应的Document
}
reader.close();//关闭资源
directory.close();//关闭连接

}catch(Exception e){
e.printStackTrace();
}