当前位置:首页 > 黑客技术 > 正文内容

ckn是什么意思污的(ckn打出什么判断女生污)

访客3年前 (2022-03-19)黑客技术1086

“道路千万条,安全之一条,行车不规范,亲人两行泪”——这句话,出自科幻电影《流浪地球》,却也恰巧概括出内容平台的“辛酸经历”。

从文字到图片,从直播到短视频,多年来行驶在内容创作这条康庄大道上的“车辆”可谓形形 *** 。这其中,有一类“老司机”最让人头疼:

这些人,以打色情擦边球为己任;在露与不露之间摩拳擦掌;为黄而不宣的内容“奋斗”终生。

他们,可能是你平台上的一个写手,一个主播甚至一个配音师。这些老司机们在海量内容池中茁壮成长,你找不到、管不了也清不走。对平台来讲,这种感觉像极了一句话:

直到在风和日丽的某一天,平台被有关部门点名关怀乃至关停整改,才发现两行泪也难掩此时的悲壮之感。

2018年,全国各地网信办平均每月收到网民举报的淫秽色情、诈骗信息、垃圾(有害)信息等高达304.6万次,且不断攀升,这都是内容风控所面临的也是迫切需要解决的问题。

内容风控要做到准确、实时、批量的确不是件易事,随着内容上云,AI技术的广泛应用,内容风控的新技术如何打破上述瓶颈?对于中小型企业和大型企业来说,怎样的云上内容管控方案才算适用?

带着问题,雷锋网邀请了腾讯安全内容风控专家 Lucas 进行一场关于内容安全的诚意问答。

1、对平台来说,内容风控为何如此重要?

Lucas:原因有三:

1.如果平台没有做好有害的内容识别,是需要负法律责任的:近期《关于办理非法利用信息 *** 、帮助信息 *** 犯罪等刑事案件适用法律若干问题的解释》出台,进一步明确规定了平台和产品在内容方面的义务与法律责任。

2.平台中泛滥的有害内容会严重影响用户的身心健康。

3.平台如果放任有害内容的产生和传播,必将导致劣质内容驱逐优质内容,降低平台整体品质,从而导致用户流失。

2、色情文本内容和蓝盟超越网互联网一样古老,风控平台是如何准确识别出哪些文字内容在“开车”的?针对一些谐音、拼音之类的擦边球文字如何准确识别?对于“嗯,嗯,嗯”“啊,啊,啊”这样的拟声字如何识别?

Lucas:文本是 *** 中更大的信息载体,所有互联网平台都面临文本安全风控的问题。色情文本中存在一些明显特点,比如变异字干扰、形近字拆字干扰、同音字干扰。

垃圾文本通过变异干扰躲避传统的有害文本风控模型

针对这类文本的特点,单靠抗干扰能力弱、策略更新滞后的文本策略无法满足对抗的需求,需要通过文本策略 算法模型相结合的方式来提升整体识别的召回率和准确率。

文本分类算法选择与模型训练

对比典型的TextCNN、RNN、FastText等文本分类算法,其中TextCNN的模型复杂度低、推理速度快、抗干扰性强且对词顺序不敏感等特点,适合于短文本高对抗的场景;在模型训练中通过以下手段来进一步提升模型的识别效果:

1. 基于字符、拼音的Word2Vec来丰富词的语义信息,可以有效解决同音字问题;

2. 数据增强,对训练样本中的高频词做拆字,比如针对“加微”这个词分别补充“ V”“ 威”等用于训练来提升模型的抗干扰能力。

3. 基于静态词向量与动态词向量相结合的 *** ,比如在不同场景的大规模语料上分别预训练静态词向量,捕捉词的多场景语义信息,从而降低因训练数据过少导致的过拟合风险。

短文本类型模型与训练流程

腾讯安全天御内容风控文本安全的打击效果

3、 *** 可能是流传最广泛,传播最速度的色情信息内容了,我们知道对于机器来说,识别 *** 门槛很高,企业应该如何处理?

Lucas:图片是 *** 上仅次于文本的第二大信息形式,几乎任何互联网平台都要面临图片中存在的色情、低俗等问题。

我们把色情低俗等图片大致分为两类过滤情况:

存在具象的有害元素:例如露点、性行为等,经典的图像分类/目标检测算法就适用于这类情况,此时算法的挑战在于元素类型众多、而且有害元素在画面中的比例未必是显著的。针对这种情况通过Attention技术,可以让模型更到特定元素而“忽视”无关痛痒的其他画面元素,例图中的输出图片是热力图,从中可以看出模型对漏沟信息的反应最为明显,说明模型判断这是一张低俗图的主要原因在于它发现了‘漏沟’这一概念。

通过Attention技术让模型更特定元素

抽象的概念:人类判断一张图是否是有害是基于画面的具体元素结合生活经验的结果,与针对特定元素的识别的图像感知相比,大量隐晦图片(如性挑逗、性诱惑)把问题上升到了图像认知的层次;图像多标签识别技术可以实现输入一张图片输出一组标签,为图像认知提供基础语义支撑,建立在多标签基础上再构建上层模型才有可能使机器做到类似人类“图像认知”的效果。这里的算法挑战在于需要积累大量的训练数据覆盖形形 *** 各类标签,而且真实世界分布中的标签的比例往往严重不平衡,如何既支持大量的标签类别又应对标签不平衡问题而且还要保持最终的识别指标是一项技术挑战;针对这种情况,腾讯安全天御内容风控采用标签级动态采样方式,设置ignore label抑制高频标签,降Loss反向传播权值,可以有效提升低频标签召回率提升,进而提升整体的识别效果。

4、除了文本和图片两大类载体之外,直播、短视频也在高速的发展,针对视频要求内容风控做出怎样的应对?如果一支视频画面正常,但播放中出现了“娇喘声”“ *** 声”,腾讯安全可以识别到么?

Lucas:2016年直播迅速崛起,到近年短视频飞速发展,都是以视频的方式吸引大量网民的眼球,相对文本图片静态内容,针对直播和短视频的内容风控除了可以从视频中抽帧做图片有害内容识别之外,还有更多的挑战:

实时性:直播作为实时流,主播在直播的同时就有数百万甚至千万的粉丝在观看节目,所以对风控的算法模型响应速度要求特别高,一般需要在500ms以内完成色情、低俗、是否本人等多项检测,并将异常的情况通知平台进行处理。

性能要求:以1分钟的短视频为例,如果按照100ms间隔抽帧,完成一个短视频需要识别600张图片,串行处理大概需要5分钟,而这往往无法满足用户及时上传及时分享的需求;因此需要加速视频检测的速度,除了通过增加机器提升并行处理速度外,可以在截图的时候使用后帧关联识别来做跳变抽帧的方式来减少抽帧总量但又不漏过视频中的关键帧信息来减少图片识别的总量。目前腾讯安全在视频检测中利用腾讯云的资源弹性伸缩,并使用跳帧识别的方式1分钟的视频,最快10s即可钟完成检测。

音频检测:视频中除了画面存在有害信息之外,还有可能出现音图无关现象,比如直播画面正常但是音频却涉黄了,因此除了截图识别外还需要提取音频内容做 *** 声等识别。完整的音频检测流程包括a)VAD 做静音检测,去掉静音内容,同时将音频分段;b)提取音频特征 MFCC/Fbank等;c) 在通用模型上(基于GMM 或者TDNN)提取能够表征该段音频内容的特征(embedding);d)通过特定的后端分类器得到每段音频的识别结果;e)根据每个片段的得分和时长,根据业务需要,汇总得到整条语音内容的识蓝盟超越网别结果和置信度。

腾讯安全-色情音频识别效果

5、这些技术,在平台眼中都适用吗,对于中小型企业和大型企业来说,选择的内容风控方案是否一致?

Lucas:如前文所介绍的针对文本、图片、视频(音频)都有不同的算法(比如TextCNN、BERT、多标签识别、Attention技术以及音频中的TDNN和i-vector),不同规模的企业中选择的技术可能大同小异,但是在风控系统的设计和实践中会出现较大的差异,最终产生的效果出现比较大的偏差。内容的对抗是一个持续的过程,线上一成不变的算法模型可以解决一时的问题不能解决各种黑产的攻击与绕过,因此针对线上识别系统之外我们还需要一套主动收集漏过数据补充线上模型流程:

1. 获取被线上模型蓝盟超越网识别为有害的内容以及用户举报的有害内容所关联的号码

2. 提取号码的文本内容做文本聚类(TF-IDF、DBSCAN、分层聚类)

3. 提取聚类特征消息平均长度(号码信息熵、IP信息熵、地址信息熵)

4. 通过XGBoost输出异常分类并给到人工标注来挖掘漏过样本

完整的垃圾文本过滤系统

同理针对图片、视频、音频的检测系统也少不了主动收集漏过数据的流程;除此之外的内容风控系统还必须具备弹性的处理能力来满足业务的需求,以及针对不同的场景做精细化的检测的能力。所以针对中小企业来说我们更建议选择成熟的云上内容风控方案,来降低企业自身的人力、物力的持续投入而专注于内容本身的运营;而针对大型的企业来说由于面临的风险也更大,除了可能自建设内容风控系统之外也可以接入云上内容风控能力来补充提升自身的不足。

6、从实际效果来看,应用了内容风控解决方案能否实现“降本增效”,为企业降低成本?

Lucas:目前腾讯安全天御内容风控系统已经通过腾讯云和小程序开放平台服务数万客户,通过我们的内容风控的系统可以从两个方面来实现“降本增效”:

降低开发成本,一键接入

目前腾讯安全天御的内容风控系统已经跟腾讯云的产品有机的结合起来,如果企业已经使用了云通信、点播、对象存储(COS)、直播等产品,那么无需开发就可以接入到我们的内容风控,我们识别到有害内容之后将主动通知企业进行处理。

腾讯安全天御内容风控系统与腾讯云有机结合

降低20%~80%的成本

随着内容风控系统不断的提升检测的效果,企业在对“鉴黄师”的人力投入也在持续降低,不同规模的企业能够降低原有20%~80%的成本。大量此前曾经需要很多人力投入才能解决的工作,现在可以交给系统来完成,企业可以将人力集中于内容风控系统检测之后的复核以提升风控效果,更大程度的避免有害内容带来的风险,也可以将人力投入到其他业务的创新和生产当中,为企业创造更多的价值。

腾讯安全天御内容风控的效果

7、未来内容把控的发展方向为何?对于VR、AR、5G等新技术的落地,企业将面临哪些新的内容风控问题?

Lucas:内容风控的核心是识别文本、图片、视频、音频中的有害内容,现阶段的识别还离不开“鉴黄师”的辅助,我们需要持续将识别做到精细化来满足不同场景的需求,同时不断提升召回率和准确率来释放“鉴黄师”的投入从而降低企业的成本。

目前内容风控对抗的主要是用户产生的内容,不管是用户 *** 还是专业拍摄,其内容的创作都是有一定成本的,随着通过生成对抗算法产生的文本、图片、视频、音频开始传播起来,其创作的成本更低廉可能更具有传播性,那么内容风控所需要面对不仅仅是人产生的内容,也包括机器自动生成的各式各样的内容。

随着5G等技术的落地,VR、AR可能重新火热起来,也会带来新的内容形式,但是内容风控的本质不会变,只要我们在内容的生产、存储、传播三个环节做好内容风控,必将可以更优的姿势迎接内容井喷式发展的到来。

雷锋网年度评选——寻找19大行业的更佳AI落地实践

创立于2017年的「AI更佳掘金案例年度榜单」,是业内首个人工智能商业案例评选活动。雷锋网从商用维度出发,寻找人工智能在各个行业的更佳落地实践。

扫描二维码推送至手机访问。

版权声明:本文由黑客技术发布,如需转载请注明出处。

本文链接:https://w-123.com/61454.html

标签: 网站随笔

“ckn是什么意思污的(ckn打出什么判断女生污)” 的相关文章

Microsoft Defender 导致 Windows 11 Build 22581 遇到视频播放问题

尽管未能赢得 AV-TEST 的最高防病毒(AV-Comparatives)等级评价,但 Microsoft Defender 仍是市面上最合适的产品之一。尴尬的是,在 Windows 11 Build 22581 编译版本中,许多人发现遇到了媒体播放问题。由 Reddit 网友的讨论可知,问题与系...

Microsoft Defender 出现严重误报:自家 Office 更新被检测为勒索软件

Microsoft Defender for Endpoint 今天出现了非常严重的误报事件,竟然将自家的 Office 应用程序更新 OfficeSvcMgr.exe 检测为勒索软件。今天早些时候,系统管理员在更新 Microsoft Defender for Endpoint 时注意到了恶意程...

黑客正在利用伪造的执法机构传票窃取苹果、Google 等公司的用户数据

据报道,犯罪黑客正在通过一种有效的、狡猾的技术用偷来的执法部门的电子邮件从大型科技公司、ISP、运营商和社交媒体公司窃取用户数据。据网络安全记者Brian Krebs称,更具体地说,攻击者显然正在伪装成执法官员以获取传票特权数据。 一般来说,他们使用被破坏的执法部门电子邮件账户。 这种策略还依赖于...

Adafruit 披露了前员工 GitHub 储存库中的数据泄露

Hackernews 编译,转载请注明出处: Adafruit 披露了一个数据泄露事件,这个事件是由于一个可公开查看的 GitHub 存储库引起的。 该公司怀疑这可能允许攻击者对2019年或之前对某些用户的信息进行“未经授权的访问”。 Adafruit 总部位于纽约市,自2005年以来一直是开源硬...

微软捣毁 ZLoader 犯罪僵尸网络

微软今天宣布近日捣毁了一个名为 ZLoader 的主要犯罪僵尸网络,这也是使用 XLM 宏作为攻击面的僵尸网络之一。微软的最新行动包括技术和法律活动,以破坏利用 ZLoader 作为恶意软件即服务(malware-as-a-service)的犯罪集团的运作。 在本次捣毁行动中,微软还锁定了一位开发...

研究报告显示 2021 年加密货币牛市使犯罪分子更加富有

根据区块链数据公司Chainalysis的一份报告,在2021年底,网络犯罪分子拥有超过110亿美元与非法活动有关的加密货币,比2020年底的30亿美元有了飞速的增长。最有利可图的犯罪行为是盗窃。据该公司称,犯罪分子、加密货币钱包中93%的资金是由价值98亿美元的被盗币构成。 为了找到这些数字,Ch...

评论列表

可难鸢旧
2年前 (2022-07-27)

(比如TextCNN、BERT、多标签识别、Attention技术以及音频中的TDNN和i-vector),不同规模的企业中选择的技术可能大同小异,但是在风控系统的设计和实践中会出现较大的差异,最终产生的效果出现比较大的偏差。内容的对抗是一个持续的过程

鹿岛亡鸦
2年前 (2022-07-27)

控效果,更大程度的避免有害内容带来的风险,也可以将人力投入到其他业务的创新和生产当中,为企业创造更多的价值。 腾讯安全天御内容风控的效果7、未来内容把控的发展方向为何?对于VR、AR、5G等新技术的落地,企业将面临哪些新的内容

痴妓听弧
2年前 (2022-07-27)

样的拟声字如何识别?Lucas:文本是网络中最大的信息载体,所有互联网平台都面临文本安全风控的问题。色情文本中存在一些明显特点,比如变异字干扰、形近字拆字干扰、同音字干扰。 垃圾文本通过变异干扰躲避传统的有害文本风控模型针对这类

寻妄甜吻
2年前 (2022-07-27)

让模型更到特定元素而“忽视”无关痛痒的其他画面元素,例图中的输出图片是热力图,从中可以看出模型对漏沟信息的反应最为明显,说明模型判断这是一张低俗图的主要原因在于它发现了‘漏沟’这一概念。通过Attention技术让模型更特定元素抽象的概念:

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。