简单的说,K-近邻算法就是采用测量不同特征值之间的距离 *** 来进行分类。它的工作原理是:存在一个样本数据 *** ,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系,输入没有标签的新数据之后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取出样本集中特征最相似数据的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是K-近邻算法名称的由来。
提问:亲,你造K-近邻算法是属于监督学习还是无监督学习呢?
从K-近邻算法的工作原理中我们可以看出,要想实施这个算法来进行数据分类,我们手头上得需要样本数据,没有样本数据怎么建立分类函数呢。所以,我们之一步就是导入样本数据 *** 。
建立名为kNN.py的模块,写入代码:
from numpy import *
import operator
def createDataSet:
group = array([[1.0%2c1.1]%2c[1.0%2c1.0]%2c[0%2c0]%2c[0%2c0.1]])
labels = [‘A’%2c’A’%2c’B’%2c’B’]
return group%2c labels
代码中,我们需要导入Python的两个模块:科学计算包NumPy和运算符模块。NumPy函数库是Python开发环境的一个独立模块,大多数Python版本里没有默认安装NumPy函数库,因此这里我们需要单独安装这个模块。大家可以从sourceforge上下载安装。
有很多的版本,这里我选择的是
numpy-1.7.0-win32-superpack-python2.7.exe。
K-近邻算法的具体思想如下:
(1)计算已知类别数据集中的点与当前点之间的距离
(2)按照距离递增次序排序
(3)选取与当前点距离最小的k个点
(4)确定前k个点所在类别的出现频率
(5)返回前k个点中出现频率更高的类别作为当前点的预测分类
Python语言实现K-近邻算法的代码如下:
运算结果如下:
输出结果是B:说明我们新的数据([0%2c0])是属于B类。
相信有很多朋友们对上面这个代码有很多不理解的地方,接下来,我重点讲解几个此函数的关键点,以方便读者们和我自己回顾一下这个算法代码。
classify函数的参数:
inX:用于分类的输入向量 dataSet:训练样本 *** labels:标签向量 k:K-近邻算法中的kshape:是array的属性,描述一个多维数组的维度。
tile(inX%2c (dataSetSize%2c1)):把inX二维数组化,dataSetSize表示生成数组后的行数,1表示列的倍数。整个这一行代码表示前一个二维数组矩阵的每一个元素减去后一个数组对应的元素值,这样就实现了矩阵之间的减法,简单方便得不让你佩服不行!
axis=1:参数等于1的时候,表示矩阵中行之间的数的求和,等于0的时候表示列之间数的求和。
argsort:对一个数组进行非降序排序
classCount.get(numOflabel%2c0) + 1:这一行代码不得不说的确很精美啊。get:该 *** 是访问字典项的 *** ,即访问下标键为numOflabel的项,如果没有这一项,那么初始值为0。然后把这一项的值加1。所以Python中实现这样的操作就只需要一行代码,实在是很简洁高效。
K-近邻算法(KNN)原理以及代码实现差不多就这样了,接下来的任务就是更加熟悉它,争取达到裸敲的地步。
近日,应用交付领域(ADN)全球领导者F5公司发布了一项安全警告,其研究团队监测到一个关键漏洞正在被积极利用。漏洞的追踪代码为CVE-2022-1388,CVSS 3.0评分为9.8,危险等级非常高。该漏洞允许未经身份验证的网络攻击者执行任意系统命令,执行文件操作,并禁用BIG-IP上的服务。 根...
GitHub今天透露,一名攻击者正在使用偷来的OAuth用户令牌(原本发放给Heroku和Travis-CI),从私人仓库下载数据。自2022年4月12日首次发现这一活动以来,威胁者已经从几十个使用Heroku和Travis-CI维护的OAuth应用程序(包括npm)的受害组织中访问并窃取数据。...
申请一份新工作通常意味着向潜在的雇主交出一连串的个人信息,这就是为什么联邦调查局警告人们要警惕招聘网站上的假招聘广告,这些广告会窃取和出售你的详细资料。联邦调查局的互联网犯罪中心(IC3)公共服务公告警告说,自2019年以来,受害者因虚假招聘广告而损失的平均金额约为3000美元。 骗子经常仿冒正常...
BlackMatter勒索软件团伙袭击了爱荷华州的一家农业企业“新合作社”,并要求590万美元的赎金。 周一,几名安全研究人员最先关注了对这次黑客攻击事件,该公司也坦诚自己遭到了网络攻击,并相应地关闭了自己的系统。这是继5月份REvil团伙对JBS发起勒索软件攻击之后,对农业行业的又一次重大打击。研...
一项新的调查显示,70%成年人仍在使用同一个密码做一件以上事情。在对1041名18岁或以上美国居民的调查中,PCMag发现,25%的人承认有时会重复使用同一个密码,24%的人说他们大部分时间都这样做,而21%的人承认一直这样做。 重复使用密码是黑客喜欢的事情,尤其是许多网站和服务使用电子邮件地址作为...
SushiSwap 首席技术官表示,该公司的 MISO 平台近日受到了软件供应链的攻击。SushiSwap 是一个社区驱动的去中心化金融(DeFi)平台,方便用户交换、赚取、借出、借用和利用加密货币资产。今年早些时候,Sushi 的最新产品 Minimal Initial SushiSwap Off...