完了,人工智能学习的第一件事情就是偷懒
   来源:无穷俱乐部     2020年10月27日 09:08

上个月,Facebook的人工智能研究所(FAIR)采用机器学习的方式,引导两个智能对话机器人相互沟通。最后产生了“人类无法理解”的对话,开发者不得不对其进行人工干预。目前,这一饱受争议的项目已经被暂时关闭。

对于“无法理解”的对话的出现,有人认为,这可能是“乱码”;更多人对此产生的是“机器不受控制”的恐慌。Facebook的人工智能研究院关闭此项目也是出于这一考虑。

这不是第一次对话机器人出现偏离英语的现象。这种情况的出现,对于机器学习这一方法的根本提出了更为深刻的挑战。

机器学习的本质,是通过生理学、统计学、计算机科学的学科交叉,来模拟人类学习的过程。通过大量的输入形成机器的知识库,机器也会在不断地后续训练和操作过程中,根据新的输入来调整自己的知识库。一般来说,需要预先给到机器大量的数据和预期结果(也就是所谓的训练范式),让机器习得范式之中输入和输出的关系,并将这一结构用于预测新的结果。这也就是所谓的监督式学习。

以著名的ImageNet项目为例,给机器输入几万张照片,告诉机器这些都是猫的照片。机器通过这些大量数据了解到猫的主要面部特征以及不同角度下的轮廓,之后再给机器看新的图片,机器就能够判别这张图片上展示的物体是不是一只猫。在此过程中,机器也可能会出错,例如可能会把一个猫形状的云朵判定为猫,或者误判蜷缩在一起的几只猫为其他的物体。这时候通过人工干预,机器就会了解到更多有关于判定的知识,在未来能够更好地辨别图片。

从教育学的角度上来看,这样的学习方式叫做行为主义。这一学派程采取了机械和唯物主义的角度,把人的大脑看做是一个黑箱子,研究外在刺激和习得行为的关系,通过在合适时候给予个体回馈,并且多次重复的方式,让个体习得合适的行为。最为有名的就是“巴甫洛夫的狗”这一实验。通过多次铃声和食物结合的训练,让狗学习到铃声和食物的高度相关性,最终狗会在听到铃声的时候分泌口水。

目前的机器学习方法也是如此,他并不关心机器是如何学习图片的认知,而是通过告诉机器正确答案,让机器自行从中找到规律,完成所谓的学习。这样的机器学习方式,其实在创造机器智能的路上其实走了捷径。原先因为无从了解机制而无法进行的学习过程,能够让机器直接学习答案,通过概率逼近的方式,获取愈发近似的结果,并在大量的实践过程中,不断完善机器的知识。机器遵循简单的“回馈”机制:他所有的一系统特定的行为行动,会获得相应的利益(benefit)。对于机器来说,他的最终目的就是寻求最大化的回馈。

这样的方式,能够解决很多我们“知其然不知其所以然”的学习问题,但也带来了如下隐患:第一,正因为机器“知其然不知其所以然”,我们无法得知机器做出某项结果的原因,也就难以控制后续的机器学习结果,对于“不正确”的学习过程进行干预;第二,这样的学习过程非常依赖于外界的输入,因此很容易受到外在输入的干扰。

今年5月的乌镇围棋峰会上,包括柯洁在内的棋手,在对局AlphaGo之后反复提及,AlphaGo对于围棋的理解和人类选手不同,很多时候会下出传统棋艺教学下几乎是无法理解的棋路。这就是机器学习不同于人类学习的直接体现。

AlphaGo学习围棋,最初得到的输入是围棋的基本规则,包括胜负的计算、落子的范围等,最终机器追求的是回馈是胜率的最大化。通过学习基本的棋谱,AlphaGo可以直接排除胜率较低的落子之处;而在不断的对弈演化过程中,AlphaGo对每个落子点的理解不再是棋谱里的具体位置,而是数字化为胜率变化的不断预估。尤其是在棋盘的中腹,人类选手算力不可及的部分,AlphaGo依然能够做出他认为最优化胜率的选择。

和AlphaGo下出惊人棋局一样,与其说Facebook的AI对话不受控制,更不如说是他们找到了有别于传统的得到最大化激励的捷径。我们可以仔细来看看这一段机器人的对话。

Bob: I can i i everything else

Alice: balls have zero to me to me to me to me to me to me to me to me to

Bob: you i everything else

Alice: balls have a ball to me to me to me to me to me to me to me to me

这整段交流的主要目的是为了让机器更有效的沟通,但是研究人员告诉了它们:“请用英文”,但忘了告诉它们“请用英文语法”。因为缺乏遵循语法的激励,机器自然而然地找到了表达自己的捷径。在这段对话之前,机器学习到的规律(“套路”)是:重复的越多,这个东西对它的意义越大(权重越高)。在了解了这一点之后回过头来看这段对话,差不多就是“讲不过就吵”嘛。我们骂人的时候,也是有不管语法的嘛。

这就好比是“会哭的孩子有奶喝”,有的是熊孩子为了得到食物或是达到自己的目的,装哭或是撒泼,来获取更多大人的照顾。在机器看来,只要是最后能得到回馈,采用什么样的方式对他们并不重要。在生活中,我们可以用社会法则的要求来教育孩子,这是不对的。而在机器学习的过程中,我们也可以通过设定相应的规则,调整机器的学习过程。

这一现象也给机器学习敲响了警钟。对于这样的事件,我们尚可以分析形成错乱语法的原因并在之后进行调整。但机器学习这一机制本身确实存在人机交互性低的漏洞,未来很可能存在失控的风险。在“人工智能”和“深度学习”风靡的时刻,这些探索都对新的算法体系提出了要求。也许,是时候看看新的机器学习方式了。

其实,愚蠢的人类啊,机器都是用二进制交流的,跟你们在这里说这些人类语言,真的好累。

机器 东西 云朵