当前位置:首页 > 网络黑客 > 正文内容

k近邻算法的原理(knn算法例题经典)

访客3年前 (2022-01-26)网络黑客588

什么是K-近邻算法?

简单的说,K-近邻算法就是采用测量不同特征值之间的距离 *** 来进行分类。它的工作原理是:存在一个样本数据 *** ,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系,输入没有标签的新数据之后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取出样本集中特征最相似数据的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是K-近邻算法名称的由来。

提问:亲,你造K-近邻算法是属于监督学习还是无监督学习呢?

使用Python导入数据

从K-近邻算法的工作原理中我们可以看出,要想实施这个算法来进行数据分类,我们手头上得需要样本数据,没有样本数据怎么建立分类函数呢。所以,我们之一步就是导入样本数据 *** 。

建立名为kNN.py的模块,写入代码:

from numpy import *

import operator

def createDataSet:

group = array([[1.0%2c1.1]%2c[1.0%2c1.0]%2c[0%2c0]%2c[0%2c0.1]])

labels = [‘A’%2c’A’%2c’B’%2c’B’]

return group%2c labels

代码中,我们需要导入Python的两个模块:科学计算包NumPy和运算符模块。NumPy函数库是Python开发环境的一个独立模块,大多数Python版本里没有默认安装NumPy函数库,因此这里我们需要单独安装这个模块。大家可以从sourceforge上下载安装。

有很多的版本,这里我选择的是
numpy-1.7.0-win32-superpack-python2.7.exe。

实现K-近邻算法

K-近邻算法的具体思想如下:

(1)计算已知类别数据集中的点与当前点之间的距离

(2)按照距离递增次序排序

(3)选取与当前点距离最小的k个点

(4)确定前k个点所在类别的出现频率

(5)返回前k个点中出现频率更高的类别作为当前点的预测分类

Python语言实现K-近邻算法的代码如下:

运算结果如下:

输出结果是B:说明我们新的数据([0%2c0])是属于B类。

代码详解

相信有很多朋友们对上面这个代码有很多不理解的地方,接下来,我重点讲解几个此函数的关键点,以方便读者们和我自己回顾一下这个算法代码。

classify函数的参数:

inX:用于分类的输入向量 dataSet:训练样本 *** labels:标签向量 k:K-近邻算法中的k

shape:是array的属性,描述一个多维数组的维度。

tile(inX%2c (dataSetSize%2c1)):把inX二维数组化,dataSetSize表示生成数组后的行数,1表示列的倍数。整个这一行代码表示前一个二维数组矩阵的每一个元素减去后一个数组对应的元素值,这样就实现了矩阵之间的减法,简单方便得不让你佩服不行!

axis=1:参数等于1的时候,表示矩阵中行之间的数的求和,等于0的时候表示列之间数的求和。

argsort:对一个数组进行非降序排序

classCount.get(numOflabel%2c0) + 1:这一行代码不得不说的确很精美啊。get:该 *** 是访问字典项的 *** ,即访问下标键为numOflabel的项,如果没有这一项,那么初始值为0。然后把这一项的值加1。所以Python中实现这样的操作就只需要一行代码,实在是很简洁高效。

后话

K-近邻算法(KNN)原理以及代码实现差不多就这样了,接下来的任务就是更加熟悉它,争取达到裸敲的地步。

扫描二维码推送至手机访问。

版权声明:本文由黑客技术发布,如需转载请注明出处。

本文链接:http://w-123.com/90706.html

标签: 网站随笔

“k近邻算法的原理(knn算法例题经典)” 的相关文章

安全专家发现新型恶意 Windows 11 网站:镜像内含恶意文件

自 Windows 11 系统 2021 年 6 月发布以来,不断有各种活动欺骗用户下载恶意的 Windows 11 安装程序。虽然这种情况在过去一段时间里有所遏制,但现在又卷土重来,而且破坏力明显升级。 网络安全公司 CloudSEK 近日发现了一个新型恶意软件活动,看起来非常像是微软的官方网站...

CPU 又曝大 bug,涉及英特尔、AMD、ARM

2018年,英特尔、AMD、ARM曝出CPU安全事件,引起广泛关注,舆论一片哗然。虽然英特尔公司表示此次事件不仅仅是英特尔,还涉及AMD/ARM等厂商,且CPU 漏洞补丁基本不会给普通用户造成任何影响,但这次bug依旧被定为成行业大事件。 时隔几年,CPU又再次曝出一个大bug,有意思的...

犯罪集团持有超过 250 亿美元加密货币 它们来自众多非法来源

伦敦的大都会警察局(MPS)进行了英国有史以来最大的加密货币扣押,从一个涉嫌洗钱的人那里拿走了价值1.8亿英镑的加密货币。同时吗,美国司法部查封了与2016年Bitfinex黑客事件有关的价值36亿美元比特币,这是目前有史以来最大的加密货币或法币被盗资产的回收。 这些故事很重要,不仅因为它们允许对加...

FritzFrog P2P 僵尸网络攻击医疗、教育和政府部门

Hackernews 编译,转载请注明出处: 一个P2P的Golang僵尸网络在一年多后重新浮出水面,在一个月内侵入了医疗、教育和政府部门实体的服务器,感染了总共1500台主机。 Akamai 的研究人员在与 The Hacker News 共享的一份报告中称,这种名为 FritzFrog 的“分...

乌克兰 MacPaw 公司发布 SpyBuster 旨在帮助用户应对俄罗斯的数据管控

位于乌克兰的Setapp开发商MacPaw已经创建了一个Mac应用程序,供用户了解他们的数据是否被保存在俄罗斯服务器上,依照该国法律可以被当局读取。总部位于乌克兰基辅的MacPaw已经告诉用户,尽管俄罗斯入侵该国,但这家乌克兰公司开发的软件作品Setapp、CleanMyMac X等将继续提供支持。...

Clearview AI 被指违反澳大利亚隐私法 已收集至少 30 亿人面部数据

澳大利亚信息专员发现,Clearview AI 在许多方面违反了澳大利亚的隐私法。在此前的双边调查中发现,该公司的面部识别工具未经同意并以不公平的方式收集澳大利亚人的敏感信息。由澳大利亚信息专员办公室(OAIC)和英国信息专员办公室(ICO)进行的调查发现,Clearview AI 的面部识别工具不...

评论列表

辞眸婉绾
3年前 (2022-07-04)

import *import operatordef createDataSet:group = array([[1.0%2c1.1]%2c[1.0%2c1.0]%2c[0%2c0]%2c[0%2c0.1]])labels = [‘A’%2c’A’

青迟未芩
3年前 (2022-07-04)

关键点,以方便读者们和我自己回顾一下这个算法代码。classify函数的参数:inX:用于分类的输入向量 dataSet:训练样本集合 labels:标签向量 k:K-近邻算法中的kshape:是array的属

孤鱼野の
3年前 (2022-07-04)

两个模块:科学计算包NumPy和运算符模块。NumPy函数库是Python开发环境的一个独立模块,大多数Python版本里没有默认安装NumPy函数库,因此这里我们需要单独安装这个模块。大家可以从sourceforge上下载安装。有很多的版本,这里我选择的是numpy-1.

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。