当前位置:首页 > 黑客技术 > 正文内容

10个人的创业团队策划书,如何做好创业团队建设论文案例

访客2年前 (2022-01-13)黑客技术994

  艺术经纬:LRS好困,小咸鱼   

  

  #【新智元介绍】何明凯团队又发新文了!这一次,他们研究了如何将预先训练好的ViT转移到检测模型中,这样标准的ViT模型就可以作为Mask了。   

  

  使用了美国有线电视新闻网的主干。结果表明,与有监督和以前的自我监督的预训练 *** 相比,AP框的绝对值增加了4%。   

  

  模型参数的初始化一直是一个重要的研究问题。适当的初始化可以提高模型的性能,加速收敛,找到更优解。   

  

  由于不需要训练数据,在对下游任务(如图像分类、目标检测)的模型进行微调之前,无监督或自监督的训练模型自然可以作为初始化参数。   

  

  无监督算法的性能是通过微调后的模型在下游任务中的性能,如准确性和收敛速度,是否比基线模型有所提高来判断的。   

  

  在计算机视觉领域,由于过去CNN的主导地位,无监督深度学习通常基于标准的卷积 *** 模型。例如,将ResNet预先训练好的模型移植到其他基于CNN的模型中是非常容易和直接的。   

  

  但现在时代变了,Vision Transformer(ViT)成为了新的主流模式。   

  

     

  

  虽然其他无监督ViT模型的参数和CNN在很大程度上没有区别,但是对于迁移的细节却没有相关的研究。   

  

  近十年来,目标检测一直是视觉领域的核心任务,但在ViT时代却没有太多的研究成果。   

  

  结合这两个出发点,何在FAIR的最新研究中,研究了基于目标检测任务的标准ViT模型的迁移 *** 。   

  

     

  

  https://arxiv.org/abs/2111.11429   

  

  本文之一作者是李,现任AI。   

  

  研究部(FAIR)研究工程师分别于2015年和2018年在北京大学获得学士学位和硕士学位。他的主要研究领域是计算机视觉和深度学习。   

  

     

  

  第二个作者是赛宁。   

  

  谢,现任FAIR研究科学家。毕业于美国加州大学圣地亚哥分校,2013年获得上海交通大学ACM荣誉班学士学位。研究兴趣包括机器学习(主要是深度学习)及其在计算机视觉中的应用。   

  

     

  

  #研究 ***   

  

  以何2017年发布的目标检测模型Mask R-CNN为基础模型,也就是Cascade R-CNN。   

  

  而HTC/HTC,是一个非常适合研究目标检测和迁移学习的模型。   

  

     

  

  但是,使用ViT作为Mask R-CNN的骨干网有两个问题:   

  

  一、将ViT与特征金字塔 *** (feature pyramid network, FPN)相匹配   

  

  掩码R-CNN骨干网可以单规模(单-   

  

  Scale)也可以是输入到FPN的多尺度特征,FPN可以用更少的运行时间和内存开销提供更好的目标检测结果。   

  

  但是FPN有一个问题,因为ViT只能输出单尺度特征,不能输出CNN的多尺度特征。为了解决这个问题,研究人员使用XCiT中的技术对ViT中间特征进行上采样和下采样,以提供四种不同分辨率的特征。   

  

     

  

  之一个模块使用步长为2的两个转置卷积(转置   

  

  扩散)进行4次上采样;然后,使用步长为2*2的转置卷积进行双上采样。最后一个模块采用2*2 max,步长为2。   

  

  池化执行下采样。   

  

  每个模块不改变ViT的通道尺寸。   

  

  假设补丁大小为16,这些模块可以输出步长为4、8、16和32的图像特征,然后将它们发送到FPN。   

  

  虽然相关研究   

  

Swin与MViT通过修改VIT架构解决了ViT无法输出多尺度特征的问题。这种处理方式也是一个重要的研究方向,但它与ViT的简单设计相悖,会阻碍新的无监督学习 *** 的探索研究。

  

二、降低内存消耗和时间复杂度

  

Transformer 的众所周知的问题就是自注意机制的时间复杂度太高,把ViT放到Mask R-CNN 中也会导致这个问题。

  

假设每个patch的尺寸为h×w,且无重合。

  

在预训练过程中,该复杂度是可控的,在224×224图像中, h=w=14是一个常用的设置。但在目标检测中,标准图像尺寸为1024 ×

  

1024,将近21倍多的像素和图像patch。由于自注意力的二次复杂度,哪怕基线ViT-B也需要占用20-30G GPU显存。

  

研究采用受限的(Windowed)self-attention,通过将全局计算都替换为局部计算来降低空间与时间复杂度。

  

将h×w的patch图像分割成r×r非重叠patch窗口,并在每个窗口内独立计算自注意力,这种处理方式可以大幅降低空间复杂度与时间复杂度。

  

但windowed self-attention的一个缺陷在于:骨干 *** 不能跨窗口聚合信息,所以需要每隔d/4个块添加一个全局自注意力模块 。

  

相比于原始Mask R-CNN,研究人员对其中几个模块进行了修改。

  

1. FPN中的卷积后加入Batch Normalization;

  

2. 在RPN(region proposal network)中使用两个卷积;

  

3. 采用四个带BN的卷积后接一个全连接用来RoI (reigon-of-interest) 分类与box回归头,而非原始的两层无normalization的MLP;

  

4. 标准mask头中的卷积后加入BN

  

相比原始训练机制,研究人员采用了从头开始训练 更长训练周期的训练机制。

  

尽管研究人员在实验过程中让超参数尽可能少,并且不使用额外的数据增强和正则化技术,但drop path

  

regularization对于ViT骨干 *** 是非常有效的,所以,真香。

  

  

总之在训练过程中的使用LSJ数据增广(分辨率,尺度范围[0.1, 2.0]),AdamW Cosine学习率衰减 linear warmup,drop

  

path正则;

  

训练过程使用了64个Nvidia V100-32GB的GPU,batch size为64。当采用预训练初始模型参数时,微调100

  

个epoch;当从头开始训练时,训练400个epoch。

  

为使上述训练机制适用于同模型,研究人员对学习率lr、权重衰减(weight decay, wd)以及drop path

  

rate(dp)三个超参进行微调,同时保持其他不变。采用ViT-B MoCoV3进行了大量实验以估计合理的超参范围:

  

1. 对每个初始化,固定dp=0.0,对lr与wd采用grid搜索,固定搜索中心为,以此为中心搜索;

  

2. 对于ViT-B,从中选择dp(预训练参数时,训练50epoch;从头开始时,则训练100epoch,dp=0.1为更优选择;

  

3. 对于ViT-L,采用了ViT-B的更优lr与wd,发现dp=0.3是更佳选择。

  

# 实验部分

  

研究人员对比了五种 *** 初始化的 *** :

  

1. Random:即所有参数均随机初始化,无预训练;

  

2. Supervised:即ViT骨干在ImageNet上通过监督方式预训练,分别为300和200epoch;

  

3. MoCoV3:即在ImageNet上采用无监督方式预训练ViT-B与ViT-L,300epoch;

  

4. BEiT:即采用BEiT方式对ViT-B与ViT-L预训练,800epoch;

  

5. MAE:使用MAE 无监督 *** 在ImageNet-1K上训练后得到ViT-B和ViT-L的权重。

  

  

虽然实验尽可能对所有 *** 都公平,但还是有一些因素导致了不公平:

  

1. 不同的预训练 *** 采用了不同的epoch;

  

2. BEiT采用可学习相对位置bias,而非其他 *** 中的绝对位置embedding;

  

3. BEiT在预训练过程中采用了layer scale,而其他 *** 没采用;

  

4. 研究人员尝试对预训练数据标准化,而BEiT额外采用了DALL-E中的discrete VAE,在约2.5亿专有和未公开图像上训练作为图像tokenizer。

  

  

在COCO目标检测和实例分割上进行实验的结果可以看到:

  

1. 无论初始化过程如何,文中提出的Mask R-CNN训练过程都更加平滑,甚至它都不需要stabilizing的技术手段,如gradient clipping。

  

2. 相比有监督训练,从头开始训练具有1.4倍的性能提升。实验结果也证明了有监督预训练并不一定比随机初始化更强;

  

3. 基于对比学习的MoCoV3具有与监督预训练相当的性能;

  

4. 对于ViT-B来说,BEiT与MAE均优于随机初始化与有监督预训练;

  

5. 对于ViT-L,BEiT与MAE带来的性能提升进一步扩大。

  

从收敛性上看,相比随机初始化,预训练初始化可以显著加速收敛过程,大约加速4倍 。

  

  

还有两个需要注意的地方是:

  

1. 理想情况下,每个训练过程的drop path rate都应进行调整,因为可以观察到,当模型接受更长时间的训练时,更佳dp值可能需要增加。

  

2. 在所有情况下都可以通过训练来获得更好的结果,例如加长训练时间,使用更复杂的训练流程,使用更好的正则化和更大的数据增强。

  

当然,由于COCO数据集的训练集非常大,即便随机初始化也能获得比较好,甚至更好的结果,这就导致迁移学习比较尴尬了。

  

研究人员还发现,现有的 *** 如有监督IN1k、MoCoV3无监督预训练的性能反而会弱于随机初始化基线方案。并且已有的无监督迁移学习改进对比的均为监督预训练,并不包含随机初始化方案。

  

此外,其他研究人员都是采用了较弱的模型,因而具有更低的结果,这就导致不确定如何将已有 *** 迁移到sota 模型中。

  

由于预训练,MAE与BEiT提供了首个令人信服的COCO数据集上的性能提升,并且这些基于masking的方案会随模型大小提升进一步改善检测迁移学习能力的潜力

  

,而有监督预训练与MoCoV3等初始化方式上并没有观察到这种结论。

  

结论

  

论文提出的 *** 使标准的ViT模型能够作为骨干在Mask R-CNN中得到实际的应用。

  

这些 *** 产生了可接受的训练内存和时间,同时也在COCO上取得了优异的结果,而且还不会涉及到复杂的扩展。

  

通过对五种不同的ViT初始化 *** 进行比较可以发现,虽然随机初始化要比预训练的初始化长大约4倍,但相比于比ImageNet-1k的监督预训练,可以取得更高的AP。

  

此外,MoCoV3作为对比性无监督学习的代表,其表现几乎与监督性预训练相同,因此也比随机初始化差。

  

更重要的是,论文发现了一个令人兴奋的新结果:基于masking的 *** (BEiT和MAE)比有监督和随机初始化都有更大的收益,而且这些收益会随着模型大小的增大而增加。

  

参考资料:

  

https://arxiv.org/abs/2111.11429

扫描二维码推送至手机访问。

版权声明:本文由黑客技术发布,如需转载请注明出处。

本文链接:http://w-123.com/97226.html

“10个人的创业团队策划书,如何做好创业团队建设论文案例” 的相关文章

Microsoft Defender 出现严重误报:自家 Office 更新被检测为勒索软件

Microsoft Defender for Endpoint 今天出现了非常严重的误报事件,竟然将自家的 Office 应用程序更新 OfficeSvcMgr.exe 检测为勒索软件。今天早些时候,系统管理员在更新 Microsoft Defender for Endpoint 时注意到了恶意程...

研究人员发现针对乌克兰的第 3 款擦除恶意软件

研究人员近日发现了针对乌克兰计算机的新型擦除恶意软件(以破坏关键文件和数据为目的),这是俄乌冲突以来发现的第 3 款擦除恶意软件。 这种被称为 CaddyWiper 的恶意软件是由总部位于斯洛伐克的网络安全公司 ESET 的研究人员发现的,他们在周一发布的推文中分享了细节。 据研究人员称,该...

破坏性网络攻击袭击巴基斯坦国家银行

周五晚上,一场破坏性网络攻击使巴基斯坦国家银行运营陷入瘫痪。该事件影响了该银行的自动取款机、内部网络和移动应用程序。目前,该事件被定为抹除数据的恶意软件攻击,而不是勒索软件攻击。 该事件发生在周五和周六之间的晚上,影响了银行后台系统,并影响了用于连接银行分支机构的服务器、控制银行ATM网络的后台基础...

因未能披露挖矿对业务的影响,英伟达被罚 550 万美元

美国证券交易委员会 (SEC) 5月6日发布声明,称对芯片制造商英伟达的指控,双方已达成一致,英伟达承认未能充分披露挖矿对其游戏业务的影响,同意支付550万美元的罚款。 此前,SEC认为,从 2017 年开始,已有越来越多的用户使用英伟达生产的游戏显卡(GPU) 来挖掘加密货币,但在2018财年的...

DEV-0343 APT 瞄准美国和以色列的国防技术公司

微软威胁情报中心(MSTIC)和微软数字安全部门(DSU)的研究人员发现了一个恶意活动群体,跟踪为DEV-0343,它的目标是美国和以色列国防技术公司的Office 365租户。 攻击者针对目标组织发起了大规模的密码喷洒攻击,这一恶意活动于2021年7月首次被发现。 “DEV-0343是微软威胁情...

拜登与普京通电话 呼吁对勒索软件攻击采取行动

白宫发布声明称,美国总统乔·拜登周五与俄罗斯总统弗拉基米尔·普京通电话,敦促普京采取行动打击该国的黑客。美国认为,世界各地公司最近遭到的勒索攻击是俄罗斯黑客所为。声明说,“拜登强调俄罗斯需要采取行动打击在俄罗斯运作的勒索软件组织,并强调他致力于继续应对勒索软件构成的更广泛威胁。” 声明称,拜登...

评论列表

姐姐你玩不起。1
2年前 (2022-07-28)

权重衰减(weight decay, wd)以及drop path    rate(dp)三个超参进行微调,同时保持其他不变。采用ViT-B MoCoV3进行了大量实验以估计合理的超参范围:   

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。