当前位置:首页 > 黑客技术 > 正文内容

搜索引擎入门(4)—查询结果排序

访客6年前 (2019-10-15)黑客技术968

TF-IDF

TF(词频)-IDF(逆文档频率) 在自动提取文章关键词上经常用到,通过它可以知道某个关键字在这篇文档里的重要程度。其中 TF 表示某个 Term 在 Document 里出现的频次,越高说明越重要;DF 表示在全部 Document 里,共有多少个 Document 出现了这个词,DF 越大,说明这个词很常见,并不重要,越小反而说明他越重要,IDF 是 DF 的倒数(取log), IDF 越大,表示这个词越重要。

TF-IDF 怎么影响搜索排序,举一个实际例子来解释:

假定现在有一篇博客《Blink 实战总结》,我们要统计这篇文章的关键字,首先是对文章分词统计词频,出现次数最多的词是--"的"、"是"、"在",这些是“停用词”,基本上在所有的文章里都会出现,他对找到结果毫无帮助,全部过滤掉。

只考虑剩下的有实际意义的词,如果文章中词频数关系: “Blink” > “词频” = “总结”,那么肯定是 Blink 是这篇文章更重要的关键字。但又会遇到了另一个问题,如果发现 "Blink"、"实战"、"总结"这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?

不是的,通过统计全部博客,你发现 含关键字总博客数: “Blink” < “实战” < “总结”,这时候说明 “Blink” 不怎么常见,一旦出现,一定相比 “实战” 和 “总结”,对这篇文章的重要性更大。

BM25

上面解释了 TF 和 IDF,那么 TF 和 IDF 谁更重要呢,怎么计算最终的相关性得分呢?那就是 BM25。

BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。

BM25算法的一般性公式如下:

其中,Q表示Query,qi表示Q解析之后的一个语素(对中文而言,我们可以把对Query的分词作为语素分析,每个词看成语素qi。);d表示一个搜索结果文档;Wi表示语素qi的权重;R(qi,d)表示语素qi与文档d的相关性得分。

其中 Wi 通常使用 IDF 来表达,R 使用 TF 来表达;综上,BM25算法的相关性得分公式可总结为:

BM25 通过使用不同的语素分析 *** 、语素权重判定 *** ,以及语素与文档的相关性判定 *** ,我们可以衍生出不同的搜索相关性得分计算 *** ,这就为我们设计算法提供了较大的灵活性。

更多关注微信公众号:jiuwenwang

扫描二维码推送至手机访问。

版权声明:本文由黑客技术发布,如需转载请注明出处。

本文链接:https://w-123.com/37568.html

标签: 黑客

“搜索引擎入门(4)—查询结果排序” 的相关文章

黑客称入侵了微软:拿到 Bing 和 Cortana 项目源代码

近日,据Reddit上的帖子和Cyber Kendra上的一份报告显示,LAPSUS$ (Lapsus) 组织入侵了微软的DevOps帐户,该组织此前入侵了NVIDIA和三星。 下面的截图由Lapsus发布,但很快被删除,由Cyber Kendra保存了下来。该组织声称可以访问微软的一些DevOps...

研究人员发现针对乌克兰的第 3 款擦除恶意软件

研究人员近日发现了针对乌克兰计算机的新型擦除恶意软件(以破坏关键文件和数据为目的),这是俄乌冲突以来发现的第 3 款擦除恶意软件。 这种被称为 CaddyWiper 的恶意软件是由总部位于斯洛伐克的网络安全公司 ESET 的研究人员发现的,他们在周一发布的推文中分享了细节。 据研究人员称,该...

新型 LokiLocker 勒索软件会擦除整个 PC 上的文件

黑莓威胁情报(BlackBerry Threat Intelligence)团队刚刚发出警报 —— 一款自 2021 年 8 月存续至今的 LokiLocker 勒索软件,正在互联网上传播肆虐。据悉,该恶意软件采用了 AES + RSA 的加密方案,若用户拒绝在指定期限内支付赎金,它就会擦除其 PC...

基于800个恶意 NPM 包的大规模供应链攻击

Hackernews 编译,转载请注明出处: 一个名为“RED-LILI”的攻击者发布了近800个恶意模块,与正在进行的针对 NPM 软件包库的大规模供应链攻击活动联系紧密。 以色列安全公司 Checkmarx 说: “通常,攻击者使用一个匿名的一次性 NPM 帐户发动攻击。”“这一次,攻击...

Windows Security 获新功能:可阻止安装恶意驱动程序

Windows 10/11 系统中的 Windows 安全中心现在变得更令人安心了。正如微软操作系统安全和企业副总裁 David Weston 所宣布的那样,内置的免费 Windows 杀毒软件现在提供了一个新的选项,可以防止脆弱的驱动程序。只不过目前还没有在 Windows 11 系统中看到这个选...

意大利对 Clearview AI 罚款 2000 万欧元并令其删除数据

一家欧洲隐私监督机构已经制裁了有争议的面部识别公司Clearview AI,该公司从互联网上搜刮自拍,积累了约100亿张脸的数据库,为其出售给执法部门的身份匹配服务。意大利的数据保护机构今天宣布对Clearview AI违反欧盟法律的行为处以2000万欧元罚款。 同时命令这家有争议的公司删除其...

评论列表

断渊木落
3年前 (2022-05-29)

为: BM25 通过使用不同的语素分析方法、语素权重判定方法,以及语素与文档的相关性判定方法,我们可以衍生出不同的搜索相关性得分计算方法,这就为我们设计算法提供了较大的灵活性。

假欢戏侃
3年前 (2022-05-29)

供了较大的灵活性。 更多关注微信公众号:jiuwenwang

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。