Lucene.net(4.8.0)+PanGu分词器问题记录一:分词器Analyzer的构造和内部成员ReuseStategy

日期：2022-05-29 栏目：程序人生浏览：次

前言：目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作，不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ，PanGu分词也是对应Lucene3.6.0版本的。不过好在Lucene.net 已经有了Core 2.0版本，4.8.0 bate版，而PanGu分词，目前有人正在做，貌似已经做完，只是还没有测试~，Lucene升级的改变我都会加粗表示。

Lucene.net 4.8.0

https://github.com/apache/lucenenet

PanGu分词

https://github.com/LonghronShen/Lucene.Net.Analysis.PanGu/tree/netcore2.0

Lucene.net 4.8.0 和之前的Lucene.net 3.6.0 改动还是相当多的，这里对自己开发过程遇到的问题，做一个记录吧，希望可以帮到和我一样需要升级Lucene.net的人。我也是第一次接触Lucene ,也希望可以帮助初学Lucene的同学。

一，Lucene 分词器：Analyzer

这里就对Lucene的Analyzer做一个简单的阐述，以后会对Analyzer做一个更加详细的笔记：Lucene 中的Analyzer 是一个分词器，具体的作用呢就是将文本（包括要写入索引的文档，和查询的条件）进行分词操作 Tokenization 得到一系列的分词 Token。我们用的别的分词工具，比如PanGu分词，都是继承Analyzer 的，并且继承相关的类和覆写相关的方法。Analyzer 是怎么参与搜索的过程呢？

1.在写入索引的时候：

我们需要IndexWriter ,二IndexWriter 的构建，补充一下，Lucene3.6.0 的构造方法已经被抛弃了，新的构造方法是，依赖一个IndexWriterConfig 类，这记录的是IndexWriter 的各种属性和配置，这里不做细究了。IndexWriterConfig 的构造函数就要传入一个Analyzer .

IndexWriterConfig(Version matchVersion, Analyzer analyzer)

转载注明出处：https://www.heiqu.com/zzfxfj.html

Lucene.net(4.8.0)+PanGu分词器问题记录一:分词器Analyzer的构造和内部成员ReuseStategy

相关推荐