搜索如何倒排索引?如何模糊匹配?

December 17, 2023
测试
测试
测试
测试
2 分钟阅读

一、 索引数据结构

搜索引擎使用倒排索引来组织数据,比如源文档

{"id":1,"title":"这是一张很贵的名画","tag":12345}
{"id":2,"title":"这是一幅相当贵的名画","tag":54321}

title 可以分词为

  • "这/是/一张/很/贵/名画/画”
  • "这/是/一幅/相当/贵/名画/画"("的"字作为停止词没有进入到索引)

分词得到的每一个词元,比如"画",称作一个term,那么倒排索引存储的数据将会变成:

title

tag

term

文档id

term

文档id

1,2

12345

1

1,2

54321

2

一张

1

一幅

2

1

相当

2

1,2

名画

1,2

1,2

二、搜索如何进行模糊匹配

搜索引擎使用倒排索引来进行模糊匹配,以上文为例,输入"很贵的画”搜索时:

首先输入词也进行分词"很/贵/画",然后用得到的term去和索引数据进行比对,得到:"很"->{1},“贵”->{1,2},"画"->{1,2},然后"很"∩"贵"∩"画"={1},得到文档1为结果,模糊匹配在索引内部都是通过分词后的term精确匹配来计算的

2.1 关于匹配度

es的match查询通常可以带匹配度(默认是75%),依旧输入"很贵的画",如果匹配度是100%,那么结果就是"很"∩"贵"∩"画"={1},如果匹配度降到75%(搜索词越短,75%的范围越模糊),那么结果(按正常理解)可以是("很"∩"贵)υ("贵"∩"画")υ("很"∩"画")={1,2}

2.2 关于短的搜索词

上面说到短的搜索词75%的匹配度很模糊,因为貌似es有个匹配度自动降级,短词搜索的时候匹配度会自动降到最低,只要有一个term匹配就可以当作结果。

还是上面的例子,输入"很贵的画",分词得到"很/贵/画",按照75%的匹配度,结果应该是("很"∩"贵)υ("贵"∩"画")υ("很"∩"画")={1,2},但是实际的搜索结果是"很"υ"贵"υ"画"={1,2}

继续阅读

更多来自我们博客的帖子

如何安装 BuddyPress
由 测试 December 17, 2023
经过差不多一年的开发,BuddyPress 这个基于 WordPress Mu 的 SNS 插件正式版终于发布了。BuddyPress...
阅读更多
Filter如何工作
由 测试 December 17, 2023
在 web.xml...
阅读更多
如何理解CGAffineTransform
由 测试 December 17, 2023
CGAffineTransform A structure for holding an affine transformation matrix. ...
阅读更多