当前位置:主页 > 数据驱动 >

周志华:深度学习为什么深?有多好的人才,才可能有多好的人工智能

 发布时间:2018-05-26 来源:

在昨天举行的2018京东人工智能创新峰会上,南京大学计算机系主任、人工智能学院院长周志华教授进行了题为《关于深度学习的思考》的主题演讲。周志华教授提出,人工智能时代最缺的就是人才,因为对这个行业来说,你有多好的人才,才可能有多好的人工智能。

周志华:深度学习为什么深?有多好的人才,才可能有多好的人工智能

 

会上,南京大学计算机系主任、人工智能学院院长周志华教授进行了题为《关于深度学习的思考》的主题演讲。周志华教授从深度学习的理论基础说起,从模型复杂度的角度探讨了“深度神经网络为什么深”的问题,提出深度学习在有很多成功应用的同时,也存在调参困难、可重复性差等问题,在很多任务上并不是最好的选择。因此,探索深度神经网络之外的模型是很重要的挑战。

周志华教授最后提到人工智能产业发展的看法,他说,“人工智能时代最缺的就是人才。因为对这个行业来说,你有多好的人才,才可能有多好的人工智能。

以下是周志华教授的演讲内容:

 

周志华:深度学习为什么深?有多好的人才,才可能有多好的人工智能

 

周志华:

首先很高兴今天来参加京东的活动,各位可能最近都听说我们南京大学成立了人工智能学院,这是中国的 C9 高校的第一个人工智能学院。我们和京东会在科学研究和人才培养等方面开展非常深入的合作,具体的合作内容可能过一段时间会陆续地告诉大家。

感谢周伯文博士的邀请。来之前我问他今天说点什么好,他告诉我在座的有不少技术人士,建议我谈谈关于一些前沿学术问题的思考,所以今天我就跟大家谈一谈我们关于深度学习的一点点非常粗浅的看法,仅供大家来批评,一起来讨论。我们都知道直接掀起人工智能热潮的最重要的技术之一,就是深度学习技术。今天,其实深度学习已经有各种各样的应用,到处都是它,不管图像也好,视频也好,声音自然语言处理等等。那么我们问一个问题,什么是深度学习?

深度学习的理论基础尚不清楚

我想大多数人的答案,就是深度学习差不多就等于深度神经网络。有一个非常著名的学会叫SIAM,是国际工业与应用数学学会,他们有一个旗舰的报纸叫SIAM news。在去年的 6 月份,这个报纸的头版上就有这么一篇文章,直接就说了这么一句话,说深度学习是机器学习中使用深度神经网络的的子领域。

所以如果我们要谈深度学习的话,是绕不开深度神经网络的。首先我们必须从神经网络说起。神经网络其实并不是一个新生事物,神经网络可以说在人工智能领域已经研究了超过半个世纪。但是以往的话,一般我们会用这样的神经网络,就是中间有一个隐层,或者有两个隐层。在这样的神经网络里面,它的每一个单元是个非常简单的计算模型。我们收到一些输入,这些输入通过一些连接放大,它就是这么一个非常简单的公式。所谓的神经网络,是很多这样的公式经过嵌套迭代得到的一个系统。那么今天当我们说用深度神经网络的时候,其实我们指的是什么?简单来说,就是我们用的层数会很深很深,很多层。在 2012 年深度学习刚刚开始受到大家重视的时候,那时候 ImageNet竞赛的冠军是用了8层的神经网络。那么到了 2015 年是用了 152 层,到了 2016 年是 1207层。这是个非常庞大非常巨大的系统,把这么一个系统训练出来,难度是非常大的。

有一点非常好的消息。神经网络里面的计算单元,最重要的激活函数是连续的、可微的。比如说我们在以往常用这样的sigmoid函数,它是连续可微的,现在大家常用的ReLu函数或者它的变体,也是这样。这使得我们可以容易地进行梯度计算,这样就可以很容易用著名的BP算法来训练。通过这样的算法,我们的神经网络已经取得了非常多的胜利。

但是实际上在学术界大家一直没有想清楚一件事情,就是我们为什么要用这么深的模型?今天深度学习已经取得了很多的成功,但是有一个很大的问题,就是理论基础不清楚。我们理论上还说不清楚它到底是怎么做,为什么会成功,里面的关键是什么?如果我们要做理论分析的话,我们先要有一点直觉,知道它到底为什么有用?这样才好着手去分析。 但现在其实我们根本就不知道该从什么角度去看它。

深度学习为什么深?模型复杂度的角度

关于深度神经网络为什么能深呢?到今天为止,学术界都还没有统一的看法。有很多的论述。我在这里面跟大家讲一个我们前段时间给出的一个论述。这个论述其实主要是从模型的复杂度的角度来讨论。

我们知道一个机器学习模型,它的复杂度实际上和它的容量有关,而容量又跟它的学习能力有关。所以就是说学习能力和复杂度是有关的。机器学习界早就知道,如果我们能够增强一个学习模型的复杂度,那么它的学习能力能够提升。那怎么样去提高复杂度,对神经网络这样的模型来说,有两条很明显的途径。一条是我们把模型变深,一条是把它变宽。如果从提升复杂度的角度,那么变深是会更有效。当你变宽的时候,你只不过是增加了一些计算单元,增加了函数的个数,在变深的时候不仅增加了个数,其实还增加了它的嵌入的程度。所以从这个角度来说,我们应该尝试去把它变深。

那大家可能就会问了,那既然要变深,那你们早就不知道这件事了吗?那么现在才开始做?这就涉及到另外一个问题,我们把机器学习的学习能力变强了,这其实未必是一件好事。因为机器学习一直在斗争的一个问题,就是经常会碰到过拟合(overfit)。这是一种什么样的现象?你给我一个数据集,我做机器学习要把数据集里面的东西学出来,学出来之后,我希望学到的是一般规律,能够用来预测未来的事情。但是有时候呢我可能把这个数据本身的一些特性学出来了,而不是一般规律。错误地把它当成一般规律来用的时候,会犯巨大的错误。这种现象就是所谓的过拟合。

那为什么我们会把这个数据本身的一些特性学出来呢?其实大家都很清楚,就是因为我们的模型学习能力太强。当你的能力非常非常强的时候,你可能就把一些特性学出来,当成一般规律。所以我们以往通常不太愿意用太复杂的模型。

那现在我们为什么可以用这样的模型?有很多因素。第一个因素是现在我们有很大的数据。比如说我手上如果只有 3000 个数据,那我学出来的特性一般不太可能是一般规律。但是如果有 3000 万,3000 万万的数据,那这个数据里面的特性可能本身就已经是一般规律。所以使用大的数据是缓解过拟合的一个关键的途径。第二,今天我们有了很多很强大的计算设备,这使得我们能够训练出这样的模型。第三,通过我们这个领域很多学者的努力,有了大量的训练这样复杂模型的技巧、算法,这使得我们使用复杂模型成为可能。总结一下就是:第一我们有了更大的数据;第二我们有强力的计算设备;第三我们有很多有效的训练技巧。这导致我们可以用高复杂度的模型,而深度神经网络恰恰就是一种很便于实现的高复杂度模型。

文章评论

互联网 自媒体专栏 智能硬件 资本动态 移动互联网 游戏 数据驱动 滚动新闻 O2O 访问移动版
Copyright © 2002-2013 搞数码网 版权所有  电话:0510-898978789 邮箱:89898989@qq.com 地址:北京市新会金水岸国商大厦B-6-B