汤晓鸥谈AI和于谦:机器怎能超过有趣的灵魂?|AI之声

作为一个在上海工作的东北人,香港中文大学教授汤晓鸥不失东北人与生俱来的幽默感。

在7月6日的世界人工智能大会开幕式发言中,作为人工智能领域前沿的知名学者与实践者,汤晓鸥说,自己每天晚上睡觉前,都是一边听着于谦老师的相声,一边在想:“机器怎么可能超过这样有趣的灵魂?我不信。”


(资料图片)

在今天的演讲中,他分享了三名学生王晓刚、何恺明、林达华在深度学习领域追梦的故事,强调了中国年轻学者在大模型研究中所作出的原创贡献。

他同时感慨:在人工智能领域,新一代的学生已经在上海成功起步。

回溯历史,汤晓鸥提到,2018年度图灵奖授予了约书亚·本吉奥(Yoshua Bengio)、杰弗里·辛顿(Geoffrey Hinton)和杨立昆(Yann LeCun) 三位深度学习之父,而摁下这扇大门第一声门铃的,是2011年杰弗里·辛顿和微软的中国学者邓力在深度学习语音识别上划时代的突破,此后2012年,在图像识别比赛中同样取得了划时代的突破。

在深度学习刚刚开始的几年,汤晓鸥和他的学生们在做什么?他讲到了第一个学生:王晓刚。

王晓刚本科是中国科大少年班,并且是00班的第一名,硕士期间他在汤晓鸥实验室就读,后来去了MIT读博士,博士毕业后回到汤晓鸥在香港中文大学的实验室做教授。2011至2013年期间,在CVPR(国际计算机视觉与模式识别会议)和ICCV(计算机视觉国际大会)两个视觉领域顶级会议上,全球共有29篇文章做了深度学习,其中有14篇出自汤晓鸥的实验室,全世界其他的实验室做了15篇。

“我们有18项工作在全世界第一次将深度学习用到视觉问题上,包括人脸识别、人脸检测、人脸重建、物体检测、人体姿态、图像超分、三维形状识别等计算机视觉最核心的问题。在深度学习的大门上,我们按了18次门铃。”汤晓鸥说。

他介绍,王晓刚还有一项工作是让机器做的人脸识别超过了人的眼睛,这比Facebook做得还要早。 2015年,王晓刚带队打败了谷歌团队,取得了中国学者史上第一个ImogeNet(一个基于图像分类和物体识别的国际竞赛)世界冠军。

第二个学生是何恺明是2003年广东高考状元,本科在清华大学就读物理专业,博士是在汤晓鸥的香港中文大学实验室取得的。汤晓鸥说,何恺明在实验室读硕士期间就发了第一篇文章,取得了CVPR最佳论文,这是CVPR25年历史上从亚洲出来的第一篇最佳论文。当时的汤晓鸥和何恺明开玩笑,说他一出手就到了巅峰,从此以后的学术生涯就只能往下走了。结果他去微软和Facebook工作后一路走高。

何恺明第一项工作是在MSR(微软研究院)进行。在2015年之前,深度学习最多只能训练到20多层,何恺明在网络的每一层引入了一个直联通道,从而解决了深度网络梯度传递的问题,获得了2016年的最佳论文。在这之后可以有效的训练超过百层的深度学习。在大模型时代,以Transformer为核心的大模型,包括GPT系列,也是普遍采用了这个结构,以支撑上百层的堆叠。

汤晓鸥总结起来,何恺明把网络做深了,谷歌把网络的入口拉大了,这才成就了今天的大模型。

何恺明的第二项工作Mask R-CNN是在Facebook做的,他首次提出了一个真正高性能的物体检测和算法框架,获得了ICCV2017年最佳论文。汤晓鸥表示,何恺明是世界上唯一一个在毕业不到十年内,三次以第一作者的身份获得CVPR、ICCV最佳论文的人。他首次把基于原码的自编码思想用于视觉领域的非监督学习,开启了计算机视觉领域自监督学习的大门,并被推广到三维、音频甚至是AI领域。

第三个学生林达华本科就读于中国科大,硕士在香港中文大学,博士是MIT。他2010年在MIT读博士期间,获得NIPS最佳学生论文,2014年回到汤晓鸥的实验室做教授。

林达华的第一项工作是OpenMMLab,在2018年从一个小团队开始,在没有推广投入的情况下,以口口相传的形式成为国际上最具影响力的视觉算法开源体系,目前用户遍及全球140多个国家和地区。

汤晓鸥还介绍了林达华的其他两项工作成果,即将正式发布的千亿参数、8K的多语种大语言模型“书生·浦语”,和有2000亿参数、覆盖100平方公里的城市级实景三维大模型LandMark。

对于三名学生在人工智能领域的成就,汤晓鸥评价:王晓刚在深度学习兴起的最初几年,洒下了很多原创的种子;何恺明将深度学习的根基打得非常牢、非常深;林达华通过开发和大模型让它枝繁叶茂。

汤晓鸥表示:“让我非常欣慰的是,这颗大树已经开始开花结果。就在两周前,我们的自动驾驶大模型从9155篇文章中脱颖而出,获得了CVPR2023年的最佳论文奖。”

他援引谷歌学术统计,称这是改革开放40多年来第一篇全部由中国学者完成的国际计算机视觉三大顶会的最佳论文,文章的牵头作者是王晓刚带出来的博士。此外,OpenMMLab是林达华带出来的博士陈恺做出来的,当年汤晓鸥实验室做的另一篇超过人眼的人脸识别的文章的作者陆超超,也从剑桥大学博士毕业回到了上海,正在和中国唯一的图灵奖获得者姚期智先生在上海期智研究院合作,从事AI基础理论研究。“新一代的学生已经在上海成功起步。”

在演讲的最后,汤晓鸥再一次感谢上海,感谢这些学生,并援引了他认为AI难以超越的“有趣灵魂”于谦在电影《老师好》里的一句台词: “我不是在最好的时光遇见了你们,而是遇见了你们,才有了这段最好的时光。”

关键词: