硬核小队出招,恶意代码服不服?服!

武汉大学  |  2022-12-30

代码也能查重?

恶意程序如何检测?

电脑防火墙怎样加固?

来自国家网络安全学院的参赛队伍

提出使用深度学习方法

解决恶意脚本相似性问题

快和珞珞珈珈一起

跟随他们制服恶意代码


来,给你的代码查个重


在不久前落幕的“华为杯”第一届中国研究生网络安全创新大赛中,武汉大学获一等奖5项。来自国家网络安全学院的“基地天天断网”团队研究“CSSU:基于结构语义理解模型的恶意代码多任务检测”项目,获得揭榜挑战赛全国二等奖


团队成员为国家网络安全学院硕士生郭迪、王世杰、高强、周成杰



什么是恶意代码?何谓结构语义理解模型?这项创新的意义何在呢?带着这些问题,珞珞珈珈采访了小队成员。


通俗来讲,现在网络上存在许多恶意代码,会对电脑造成威胁,但是传统的杀毒软件在对恶意代码的检测方面具有很大的局限性,攻击者只要运用一些降重手法,对恶意代码做一些小的变动,就可以瞒天过海,难以被识别查杀。针对这种情况,团队提出了这种运用深度学习的方法进行检测。“我们提出并训练了一个深度学习模型,当它在电脑上运行的时候,就能高效地识别出经过小改动后的恶意代码”,郭迪这样解释道。


“赛题是恶意代码相似性检测,我们设计了一个基于unixcoder的神经网络模型。”高强介绍。关于模型的选择,团队将人工智能领域自然语言处理的相关技术应用在代码语言中,从结构和语义两方面来比较不同代码之间的相似度,通过预训练语言模型来实现语义对比,通过图神经网络实现结构对比,这样的模型设计在漏洞检测恶意程序检测里都能得到很好的应用。




“比如,在审查别人代码时,你不知道某一段代码的用途,这时你就可以检索一下相似代码,你就能弄懂这个代码的实际用途。再比如,你写了一个代码,感觉它不太对,有漏洞,那你就在漏洞库里查一下相似的代码,可以很容易知道这一段代码存在什么问题。”周成杰这样介绍。在安全运行中,系统遇到可疑的代码时,通过在病毒库里“对照查重”,就可以快速确定有什么威胁并进行应对。



一个多月完成,高效!


团队成员都是同届的同门,主要研究深度学习中的自然语言处理。在导师推荐下,他们选择此次比赛,既是充实研一生活,为后续研究生生涯做铺垫的“热身”,也是想抓住检验和运用所学知识的难得机会。在备赛过程中,导师的指导和支持不仅让项目的专业性和可行性得到更进一步的提高,也让队员们有了更强的信心和底气。


研究过程中最大的困难是什么?“当然是有关于网络安全的这些训练数据的收集了。”因为相似的恶意代码在安全领域会比较敏感,大多数厂商都不会选择直接公开,这就需要大家自己想办法。经过一番思索后,队员们决定选择采用迁移学习数据增强的方法,先在高资源样本上进行训练,再将参数迁移到低资源样本上继续学习,并利用一些规则替换一部分正常代码,最终取得了较好的成果。



在众多的参赛队伍中,时间之紧和效率之高使这支队伍显得与众不同 。尽管在初赛前两个星期团队才报名,从报名到答辩结束,也只经历了一个多月的时间,但团队还是以明确的分工高效率地完成项目并成功在决赛突围。


“确定赛题后,我们制定了大致思路和实现方向,完成了初步分工。再经过一个多星期,队员们分别收集资料、阅读文献,各自选择自己模块中最合适的方案,一起讨论确定了具体的实践方案。接下来就是慢慢地试做,一边训练模型一边写文档。”团队主要负责人郭迪介绍道。


对于创新比赛,郭迪和周成杰有一定的经验,而其他两位成员是第一次参加。在这一个多月里,由于疫情影响,团队的沟通合作产生了一定程度的困难,线上交流讨论时有些细节没有很好地表达,也导致后来走了一些弯路,这也是团队成员们的一个遗憾。答辩当天,团队奋战至凌晨四点,力求在决赛中做出最好的呈现,面对压力,每一位成员都拼尽了全力。


未来,一定会更好


团队在模型训练好、搭建好后,将其开源在网上,有不少人下载了测试,目前使用效果总体不错。



至于项目未来的发展,团队坦言,研究人工智能的需要很多网络安全相关的数据,这一方面需要有相关积累的安全机构去合作,提供更多的数据,才能形成真正成熟的,有价值的服务。


“如果比赛能有更多的时间,我们其实有更多更棒的想法可以加进来,这个模型的效果可能会更好。我们也会去收集更多高质量的训练数据,提升模型效果。未来有机会的话,我们想基于这次比赛成果发表一篇期刊论文。”郭迪说道。


当珞珞珈珈问及队名的来历,队员们笑谈:“众所周知,武汉大学的网安新校区的生活学习硬件设施非常豪华,不仅拥有全年开放的恒温游泳馆、室内羽球场、虚拟攻防演练教室等,校园网更是采用了全校区覆盖的光纤无线网络,其下行带宽峰值能达到1000M,网络十分稳定,看网课学习、做实验从不卡顿。一些外校的同学都羡慕嫉妒恨,‘祝福’我们基地天天断网。”


谈到参加这次比赛对自己的影响,队员们一致认为,加深了自己对专业知识创新创造的理解体悟,锻炼了团队合作能力组织协调能力,同时也收获了弥足珍贵的友谊


正如成员王世杰所说:“在比赛中体会到了不断阅读资料、完善理论知识的重要性,同时团队分工合作、讨论交流、互相促进,共同推动作品的完成是参加此次比赛的最有感触的深刻体验。”


给学弟学妹们的建议


①参加这类比赛要提早,我们团队由于时间很赶,不得不删去项目的很多模块,后期准备答辩也是常常通宵来追赶时间的不足。


②这类比赛其实最重要的就是创新点,而创新的思路往往都来自最新的相关论文,所以大家一定要多多关注领域的最新论文


③一定不要有畏难情绪,如果你对这个领域有兴趣,放心大胆地参加,不要怕困难,怕有磕磕绊绊。在参加过程中,你学到知识和认识的朋友都会是非常大的收获。


科研创新科技报国路上

求是拓新薪火相传

珞珈少年上下求索

通宵达旦,笃志前行

磨练自我,勇攀高峰

瞄准学科前沿,创新拥抱未来

责任编辑:曹竞