西安交大“学术萌芽计划”:成长和科研路上组队前行
凌晨1点的校园很静,文治路旁的梧桐树在晚风的轻拂下窸窣作响。此时,西安交通大学的大部分学子们都已进入了梦乡。但有这么一群学生,他们刚刚结束一天的忙碌,轻悄悄地离开彭康楼的工位,伴随着昏黄的路灯回到宿舍。他们是西安交通大学计算机学院LUD实验室的成员,这就是他们备战五月人工智能顶级会议投稿时普普通通的一夜。
“学术萌芽计划”LUD实验室的诞生
本科生广泛参与科学研究是西安交通大学的特色之一,而加入老师的课题组则是他们参与科研的重要步骤。西安交大计算机拔尖培养基地非常重视这一传统和特色的继承,在大一时便会为每位同学单独配备1对1的学业导师和学术导师。
计试81班的冯尚彬同学,他的学术导师是西安交大计算机学院的罗敏楠教授,他加入罗敏楠老师课题组不仅因为对专业方向感兴趣,也是因为了解和看重罗老师丰富的科研经历、严谨的科研态度和优秀的科研成果。经过1年的科研训练和工作,冯尚彬同学便取得了初步的成果,撰写的论文先后在CIKM、AAAI等多个国际顶级学术会议中录用发表。
冯尚彬就这样成为了同学和老师们眼中的“学霸”,也成为了计算机拔尖培养基地的优秀培养案例。为了鼓励更多的同学参与科研,拔尖基地组织了多次“成功经验”交流会。随着越来越多的同学参加,交流会渐渐的变成了学术报告会;后来,在老师的指导下,又演化成了由本科生自参与自组织的学术社团——西安交通大学计算机拔尖班“学术萌芽计划”LUD实验室(Luo lab Undergraduate Division)。
初期成果
LUD实验室成立初期,一次次的交流与报告,让冯尚彬和万和润、王宁南几位同学找到了相同的兴趣点,组成了一个小组。他们开始在社交网络分析的社交机器人账户检测(bot detection)方向上做工作。社交机器人账户是在社交媒体上由程序自动控制的账户,这些账户通常会散播不实消息,影响我们的舆论环境。为了能够智能、高效地把社交机器人账户检测出来,三位同学分解任务,着手从数据和算法两方面开展工作。
数据是人工智能算法的“粮食”,为了获得更好的识别效果,一个足够大的数据集必不可少,这便是第一个挑战。为了得到更多的数据,他们开始寻求经费,开始了一次次的答辩。最终,他们得到了数据处理的经费,构建了一个包含22万用户,三千多万条文本和45万用户关注关系的数据集Twibot-20。算法方面,他们提出了一种自监督的机器人检测方法SATAR,相关成果发表在了数据挖掘顶级会议CIKM 2021上。同时,为了考虑社交网络上用户的互动关系,冯尚彬还提出利用图神经网络进行bot detection,BotRGCN使用R-GCN架构并同时考虑用户的描述、推文、属性、数值特征;而另一项工作RGT则提出了一种新的神经网络架构以建模社交网络上的关系异质性和用户间的影响力异质性,相关工作分别发表在ASONAM 2021和AAAI 2022上。
除了社交机器人账户检测意外,LUD的同学们还在知识引导的自然语言处理方面做了许多探索。在理解语言时,人们通常会利用一些背景知识来帮助自己更好地理解文本内容。LUD同学提出将外部背景知识通过知识图谱的方式加入到自然语言处理模型中,即将知识图谱嵌入作为初始特征从而向文本中融入外部知识,并将模型应用到政治立场检测任务上。
LUD实验室的日常
对于LUD实验室的活动,学生们每个人都积极参与其中。无论是招新,还是相互的交流与培养,大家都分工明确,事情被安排得井井有条。还记得上一次招新的时候,有人负责前期宣传,有人负责文案撰写,有人负责海报的设计与制作,有人负责对所有报名的同学进行指导与安排……
对于LUD实验室的每一项工作,同学们都群策群力,希望将事情做到最好。平时LUD实验室的活动也紧密围绕着科研进行。每一周,不同科研习题的高年级同学便会与他们指导的同学进行见面与交流,就这一周的科研工作内容进行汇报。无论是研究的大方向该往哪里走,还是在代码编写上遇到了一些麻烦,都会进行悉心的指导和交流。科研中大家是互相帮助的研究者,课余时间大家则是关系密切的好伙伴,这就是LUD实验室每一个同学的真实写照。
迄今,LUD实验室相关成果发表/投稿在CIKM、AAAI、NAACL、ICML、NeurIPS、EMNLP、COLING等CCF收录的学术会议,实验室成员也直博清华大学、上海交通大学、华盛顿大学、弗吉尼亚大学等国内外知名高校。
LUD实验室学生风采展示
成长语录
? 冯尚彬:很高兴见证了LUD实验室从无到有的过程,希望大家能继续在Twitter Bot Detection、Knowledge-aware NLP等方向上继续深造。
? 万和润:我来自计算机试验班81,目前有3篇二作论文,分别被cikm与asonam接收。我们实验室的研究氛围很好,同学们之间互帮互助。希望LUD实验室越办越好,交大的同学们也能从中获得帮助。
? 王宁南:我在LUD实验室主要参与了SATAR的研究工作,在这段时间内收获颇丰。希望大家能在这里有更多的收获,希望我们学院的教学与科研工作越来越好。
? 张斌弛:我的工作主要有联邦学习和异质图异常检测,目前有一篇icml在投文章。在LUD实验室我们可以广泛涉猎不同的研究方向,自由地讨论想法与开展合作。希望有更多的同学可以通过LUD入门科研,激发对于科研的兴趣。
? 陈子龙:我来自物试81,在LUD实验室主要进行知识图谱嵌入和应用的研究,相关的工作发表在naacl上。感谢LUD实验室给本科生提供了一个高质量的科研学习和交流的平台,让对人工智能感兴趣的同学可以找到自己的方向。
? 谭兆轩:我在LUD实验室做过社交机器人账户检测,知识图谱表示学习相关工作,其中社交机器人账户检测的工作发表在AAAI2022上。LUD实验室为我们提供了非常优越的研究环境,同学们经常会在一起讨论学术问题,互相交流见解。
? 杨舒杰:我来自数学与统计学院信计91,在LUD实验室做异质图上的异常检测的相关工作。实验室有许多非常优秀的同学和学长,教会了我很多知识,在实验室的工作和学习的过程中也从老师和同学们身上学到了很多东西,是我很宝贵的经历。
? 张文千:我在LUD主要与大家一起探索图和外部知识在自然语言处理中的重要性和融合框架。我具体侧重于探索利用图,外部知识以及预训练语言模型解决立场检测问题,最近与大家合作的文章KCD被NAACL 2022录用。加入LUD接近一年,我很感谢老师和同学的指导和帮助,希望在接下来的时间里继续向大家学习,共同努力,产出更多成果。
? 雷镇雨:我主要是在做有关开放域问答和社交媒体分析方面的科研,参与过一篇有关政治观点检测的论文,目前还在准备自己的paper。在实验室里,大家都很和谐,互相有不懂的问题都可以相互问,然后也互相帮忙。学长人很有耐心,对你也很有责任感,就感觉上了大学就没有谁再这么关心过你了。
? 冯新顺:我在LUD实验室负责在图神经网络上的神经架构搜索项目。在LUD实验室里我学习到了各种各样的知识,学长们也十分负责帮助我们完成课题,在完成课题的过程中极大地锻炼了自己的能力。
? 王鸿瑞:我来自计算机95班。目前在进行假新闻检测(Fake News Detection)方面的研究,通过社交网络时序模型对不同数据分析得到更加准确的真假新闻检测方法。非常感谢老师和其他老师给予我的帮助和指点,没有这些谆谆的教导,我们的工作无法很顺利地进行,同时也非常感谢我的学长们和同学们的帮助和合作,学长们的耐心指导与精湛高超的水平使我受益匪浅,同学们的互相鼓励也使我更有动力。希望LUD实验室越来越好,为西安交通大学培养更多的人工智能科研方面的栋梁之材。
? 白雨洋:目前正在研究对比学习在nlp领域的应用,具体思路是把加入外部知识作为data augmentation进行对比学习,希望能借此方法获得更好的文本表示,提高下游任务的表现。LUD实验室为成员提供了优越的科研环境,给我们提供了了解科研,参与科研的机会,十分感激组内各位学长的悉心指点。希望能和大家共同进步,有所作为。
? 刘雨菡:目前在做自然语言处理知识图谱表示学习相关研究。LUD 实验室是一个强手云集的地方,每个人都对自己的领域有着纯粹的激情与热忱。LUD实验室团结性和包容性极强,大家齐心协力,共同奋进,乐于助人的精神令我初次到来便印象深刻。
? 王珩:目前正在进行剧透检测的相关研究。LUD实验室使我学习到了深度学习方面的许多知识,初步体验了科研的乐趣,非常感谢学长们能搭建这样一个优质的平台。
? 蔡子坚:作为刚加入实验室的新人,虽然还没有开始做出一些实质性的贡献与成果,但相信在实验室良好氛围以及前辈们的帮助下一定能有所作为。很荣幸成为实验室的一员。
? 陈斌龙:从最初的CIFAR-10数据集分类任务到最终的BotRGCN论文的复现,再加之新手教程中整个系列的专题讲座,我感觉LUD实验室对于新手的培训能帮助我们快速掌握Pytorch,熟悉图挖掘以及自然语言处理中的模型与算法,从而使得入门者能成功搭建完备的理论体系、形成一个系统的框架,帮助我们平稳过渡到正式的实验室项目。我目前主要致力于TwiBot-22大项目中基于深度学习的自定义遗传算法以进行超参数寻优的工作。我将始终保持对于学术研究的崇敬与热爱,珍惜LUD实验室提供的宝贵资源与美好氛围,期待在图挖掘与自然语言处理领域不断深入探索并能有所产出。
? 王彦博:主要参与了twibot-22的相关工作,实现了tweet-based等相关baseline。实验室对于不同水平同学的引导做的非常好,从最基础的深度学习知识,到各论文的复现,再到指导完成新的项目,最后能够提出创新的想法并付诸实际,引导我们逐步从学生成长为科研工作者。