当前位置:首页 > 黑客技术 > 正文内容

搜索引擎入门(4)—查询结果排序

访客5年前 (2019-10-15)黑客技术943

TF-IDF

TF(词频)-IDF(逆文档频率) 在自动提取文章关键词上经常用到,通过它可以知道某个关键字在这篇文档里的重要程度。其中 TF 表示某个 Term 在 Document 里出现的频次,越高说明越重要;DF 表示在全部 Document 里,共有多少个 Document 出现了这个词,DF 越大,说明这个词很常见,并不重要,越小反而说明他越重要,IDF 是 DF 的倒数(取log), IDF 越大,表示这个词越重要。

TF-IDF 怎么影响搜索排序,举一个实际例子来解释:

假定现在有一篇博客《Blink 实战总结》,我们要统计这篇文章的关键字,首先是对文章分词统计词频,出现次数最多的词是--"的"、"是"、"在",这些是“停用词”,基本上在所有的文章里都会出现,他对找到结果毫无帮助,全部过滤掉。

只考虑剩下的有实际意义的词,如果文章中词频数关系: “Blink” > “词频” = “总结”,那么肯定是 Blink 是这篇文章更重要的关键字。但又会遇到了另一个问题,如果发现 "Blink"、"实战"、"总结"这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?

不是的,通过统计全部博客,你发现 含关键字总博客数: “Blink” < “实战” < “总结”,这时候说明 “Blink” 不怎么常见,一旦出现,一定相比 “实战” 和 “总结”,对这篇文章的重要性更大。

BM25

上面解释了 TF 和 IDF,那么 TF 和 IDF 谁更重要呢,怎么计算最终的相关性得分呢?那就是 BM25。

BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。

BM25算法的一般性公式如下:

其中,Q表示Query,qi表示Q解析之后的一个语素(对中文而言,我们可以把对Query的分词作为语素分析,每个词看成语素qi。);d表示一个搜索结果文档;Wi表示语素qi的权重;R(qi,d)表示语素qi与文档d的相关性得分。

其中 Wi 通常使用 IDF 来表达,R 使用 TF 来表达;综上,BM25算法的相关性得分公式可总结为:

BM25 通过使用不同的语素分析 *** 、语素权重判定 *** ,以及语素与文档的相关性判定 *** ,我们可以衍生出不同的搜索相关性得分计算 *** ,这就为我们设计算法提供了较大的灵活性。

更多关注微信公众号:jiuwenwang

扫描二维码推送至手机访问。

版权声明:本文由黑客技术发布,如需转载请注明出处。

本文链接:https://w-123.com/37568.html

标签: 黑客

“搜索引擎入门(4)—查询结果排序” 的相关文章

Microsoft Defender 导致 Windows 11 Build 22581 遇到视频播放问题

尽管未能赢得 AV-TEST 的最高防病毒(AV-Comparatives)等级评价,但 Microsoft Defender 仍是市面上最合适的产品之一。尴尬的是,在 Windows 11 Build 22581 编译版本中,许多人发现遇到了媒体播放问题。由 Reddit 网友的讨论可知,问题与系...

黑客正在利用伪造的执法机构传票窃取苹果、Google 等公司的用户数据

据报道,犯罪黑客正在通过一种有效的、狡猾的技术用偷来的执法部门的电子邮件从大型科技公司、ISP、运营商和社交媒体公司窃取用户数据。据网络安全记者Brian Krebs称,更具体地说,攻击者显然正在伪装成执法官员以获取传票特权数据。 一般来说,他们使用被破坏的执法部门电子邮件账户。 这种策略还依赖于...

超过 350 万俄罗斯互联网用户的账户被攻破 增长速度冠绝全球

Surfshark的一项研究显示,自3月开始入侵乌克兰以来,俄罗斯账户被攻破的次数比2月多136%。反过来,乌克兰在黑客攻击中充当受害者的场景比战争前的那个季度少67%。这些数字很可能是由于黑客组织Anonymous在冲突开始时宣布它将特意针对俄罗斯的事实。 sandr Valentij说。”泄...

研究人员发现三个联想电脑的 UEFI 漏洞 影响规模可达数百万台

根据The Hacker News的报道,有三个高影响的统一可扩展固件接口(UEFI)安全漏洞被公布,即CVE-2021-3970、CVE-2021-3971和CVE-2021-3972,已被发现它们会影响联想的各种设备,如联想Flex、IdeaPads和Yoga笔记本电脑。 最初,CVE-202...

破坏性网络攻击袭击巴基斯坦国家银行

周五晚上,一场破坏性网络攻击使巴基斯坦国家银行运营陷入瘫痪。该事件影响了该银行的自动取款机、内部网络和移动应用程序。目前,该事件被定为抹除数据的恶意软件攻击,而不是勒索软件攻击。 该事件发生在周五和周六之间的晚上,影响了银行后台系统,并影响了用于连接银行分支机构的服务器、控制银行ATM网络的后台基础...

黑客 Gary Bowser 对盗版指控认罪 同意向任天堂支付 450 万美元

名为Gary Bowser的Team-Xecuter黑客组织成员已经承认了与销售硬件和软件有关的指控,这些硬件和软件允许人们在各种游戏机上玩未经授权或盗版的游戏,包括任天堂的几种游戏机。此前,美国任天堂公司在今年早些时候对该黑客发起了诉讼。 被司法部描述为世界上最臭名昭著的电子游戏盗版集团之一的T...

评论列表

断渊木落
3年前 (2022-05-29)

为: BM25 通过使用不同的语素分析方法、语素权重判定方法,以及语素与文档的相关性判定方法,我们可以衍生出不同的搜索相关性得分计算方法,这就为我们设计算法提供了较大的灵活性。

假欢戏侃
3年前 (2022-05-29)

供了较大的灵活性。 更多关注微信公众号:jiuwenwang

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。