当前位置：首页 > 黑客教程 > 正文内容

防止过拟合的 ***

访客3年前 (2022-02-22)黑客教程497

编辑：小舟

正如巴菲特所言：「近似的正确好过精确的错误。」

在机器学习中，过拟合（overfitting）会使模型的预测性能变差，通常发生在模型过于复杂的情况下，如参数过多等。本文对过拟合及其解决 *** 进行了归纳阐述。

在机器学习中，如果模型过于专注于特定的训练数据而错过了要点，那么该模型就被认为是过拟合。该模型提供的答案和正确答案相距甚远，即准确率降低。这类模型将无关数据中的噪声视为信号，对准确率造成负面影响。即使模型经过很好地训练使损失很小，也无济于事，它在新数据上的性能仍然很差。欠拟合是指模型未捕获数据的逻辑。因此，欠拟合模型具备较低的准确率和较高的损失。

如何确定模型是否过拟合？

构建模型时，数据会被分为 3 类：训练集、验证集和测试集。训练数据用来训练模型；验证集用于在每一步测试构建的模型；测试集用于最后评估模型。通常数据以 80:10:10 或 70:20:10 的比率分配。

在构建模型的过程中，在每个 epoch 中使用验证数据测试当前已构建的模型，得到模型的损失和准确率，以及每个 epoch 的验证损失和验证准确率。模型构建完成后，使用测试数据对模型进行测试并得到准确率。如果准确率和验证准确率存在较大的差异，则说明该模型是过拟合的。

如果验证集和测试集的损失都很高，那么就说明该模型是欠拟合的。

如何防止过拟合

交叉验证

交叉验证是防止过拟合的好 *** 。在交叉验证中，我们生成多个训练测试划分（splits）并调整模型。K-折验证是一种标准的交叉验证 *** ，即将数据分成 k 个子集，用其中一个子集进行验证，其他子集用于训练算法。

交叉验证允许调整超参数，性能是所有值的平均值。该 *** 计算成本较高，但不会浪费太多数据。交叉验证过程参见下图：

用更多数据进行训练

用更多相关数据训练模型有助于更好地识别信号，避免将噪声作为信号。数据增强是增加训练数据的一种方式，可以通过翻转（flipping）、平移（translation）、旋转（rotation）、缩放（scaling）、更改亮度（changing brightness）等 *** 来实现。

移除特征

移除特征能够降低模型的复杂性，并且在一定程度上避免噪声，使模型更高效。为了降低复杂度，我们可以移除层或减少神经元数量，使 *** 变小。

早停

对模型进行迭代训练时，我们可以度量每次迭代的性能。当验证损失开始增加时，我们应该停止训练模型，这样就能阻止过拟合。

下图展示了停止训练模型的时机：

正则化

正则化可用于降低模型的复杂性。这是通过惩罚损失函数完成的，可通过 L1 和 L2 两种方式完成，数学方程式如下：

L1 惩罚的目的是优化权重绝对值的总和。它生成一个简单且可解释的模型，且对于异常值是鲁棒的。

L2 惩罚权重值的平方和。该模型能够学习复杂的数据模式，但对于异常值不具备鲁棒性。

这两种正则化 *** 都有助于解决过拟合问题，读者可以根据需要选择使用。

Dropout

Dropout 是一种正则化 *** ，用于随机禁用神经 *** 单元。它可以在任何隐藏层或输入层上实现，但不能在输出层上实现。该 *** 可以免除对其他神经元的依赖，进而使 *** 学习独立的相关性。该 *** 能够降低 *** 的密度，如下图所示：

总结

过拟合是一个需要解决的问题，因为它会让我们无法有效地使用现有数据。有时我们也可以在构建模型之前，预估到会出现过拟合的情况。通过查看数据、收集数据的方式、采样方式，错误的假设，错误表征能够发现过拟合的预兆。为避免这种情况，请在建模之前先检查数据。但有时在预处理过程中无法检测到过拟合，而是在构建模型后才能检测出来。我们可以使用上述 *** 解决过拟合问题。

扫描二维码推送至手机访问。

本文链接：https://w-123.com/83064.html

标签: ***

返回列表

上一篇：岩棉7公分容重140多钱_保温岩棉多少钱一立方

下一篇：雾化的正确方法

“防止过拟合的 *** ” 的相关文章

黑客演示入侵电影制片人 Mac 计算机证明 macOS 无法主动抵御网络威胁

近日，两位安全研究人员成功入侵了亿万富翁兼电影制片人 Jeffrey Katzenberg 的 Mac 计算机，意味着 macOS 设备并不能自动抵御网络威胁。虽然没有提到特定的 macOS 设备型号，深谙社会工程的 SocialProof Security 首席执行官 Rachel Tobac 还...

SSLPing 开发者向广大用户致歉：服务积弊太久已难起死回生

SSLPing 是一款相当实用的工具，在注册并添加了你的服务器后，它就会帮助检查证书、协议、密码和已知漏洞。从 SSL v3 到 TLS 1.2，对于一些大型服务提供商来说，如果未能在证书到期前妥善处理，后续的影响还是相当难以规避的。然而近日，这款免费工具的创作者正在发出寻求帮助的讯号。（来自：...

日本电装德国分部大量机密数据被窃取黑客威胁将公开

丰田汽车旗下零部件制造商日本电装于13日宣布，其德国当地法人受到了网络攻击。该公司确认其网络感染了勒索软件。被认定发动了此次攻击的黑客集团已经发布了勒索声明。公司称虽然目前并没有立刻对公司经营造成影响，但是“关于受害的详细情况正在调查中”。公司已向德国当地政府提交了受害报告。据信息安全公司三井物...

西班牙政府证实首相及防长手机被通过“飞马”间谍软件窃听

法新社消息，西班牙政府2日表示，该国首相桑切斯和国防部长罗伯斯的手机在一次“非法的、外部的 ”干预中被通过“飞马”间谍软件窃听。报道还称，西班牙首相府、议会关系与民主记忆大臣费利克斯·博拉尼奥斯·加西亚也证实说，“这不是推测，是非常严重的事实，希望司法部门进行调查。” 法新社报道截图去年7月，这...

宜家加拿大分公司通报数据泄露事件影响约 95000 名客户

当地时间5月6日，宜家（IKEA）加拿大公司表示已经将该公司大约9.5万名客户的个人信息数据泄露事件通报给加拿大的隐私监管机构。宜家（IKEA）加拿大公司在致受影响客户的一封信中表示，可能已被泄露的数据包括客户姓名、电子邮件地址、电话号码和邮政编码。宜家加拿大公司已通知加拿大隐私专员，因为有95...

谷歌修复了积极利用的 Android 内核漏洞

近期谷歌发布了Android的5月安全补丁的第二部分，其中包括对积极利用的Linux内核漏洞的修复。该漏洞编号为CVE-2021-22600，是Linux内核中的一个权限提升漏洞，威胁者可以通过本地访问来利用该漏洞。由于Android使用修改后的Linux内核，因此该漏洞也会影响操作系统。谷歌的...

评论列表

依疚软祣

3年前 (2022-07-03)

，并且在一定程度上避免噪声，使模型更高效。为了降低复杂度，我们可以移除层或减少神经元数量，使网络变小。早停对模型进行迭代训练时，我们可以度量每次迭代的性能。当验证损失开始增加时，我们应该停止训练模型，这样就能阻止过拟合。下

回复该评论

发表评论

« 2025年1月 »
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

文章归档

黑客技术

防止过拟合的 ***

“防止过拟合的 *** ” 的相关文章

黑客演示入侵电影制片人 Mac 计算机证明 macOS 无法主动抵御网络威胁

SSLPing 开发者向广大用户致歉：服务积弊太久已难起死回生

日本电装德国分部大量机密数据被窃取黑客威胁将公开

西班牙政府证实首相及防长手机被通过“飞马”间谍软件窃听

宜家加拿大分公司通报数据泄露事件影响约 95000 名客户

谷歌修复了积极利用的 Android 内核漏洞

评论列表

发表评论

Copyright Your WebSite.Some Rights Reserved.

黑客技术

防止过拟合的 ***

“防止过拟合的 *** ” 的相关文章

黑客演示入侵电影制片人 Mac 计算机 证明 macOS 无法主动抵御网络威胁

SSLPing 开发者向广大用户致歉：服务积弊太久 已难起死回生

日本电装德国分部大量机密数据被窃取 黑客威胁将公开

西班牙政府证实首相及防长手机被通过“飞马”间谍软件窃听

宜家加拿大分公司通报数据泄露事件 影响约 95000 名客户

谷歌修复了积极利用的 Android 内核漏洞

评论列表

发表评论取消回复

Copyright Your WebSite.Some Rights Reserved.

黑客演示入侵电影制片人 Mac 计算机证明 macOS 无法主动抵御网络威胁

SSLPing 开发者向广大用户致歉：服务积弊太久已难起死回生

日本电装德国分部大量机密数据被窃取黑客威胁将公开

宜家加拿大分公司通报数据泄露事件影响约 95000 名客户

发表评论