机器学习的基本问题
   来源:中国科技博览     2021年06月22日 19:23

机器学习入门机器学习概论

刘丹++于淳

中图分类号:TG333.7 文献标识码:A 文章编号:1009-914X(2016)21-0234-01

机器学习是一种基于数据的学习方法,研究从观测数据所包含的有限信息构造一个模型,利用该模型可对未知数据或无法观测的数据进行尽可能准确的预测,这种模型称为学习机器。对计算机科学而言,所有的数据都是以数字形式表示的,因此机器学习问题实际上是函数估计问题,相应地称函数估计器(Functions Estimator)为学习机器。

1.1 机器学习问题的表示

机器学习问题的基本模型,可以用图1表示。其中,系统S是我们研究的对象,它在给定一定输入x下得到一定的输出y,LM是我们所求的学习机,输出为。机器学习的目的是根据给定的已知训练样本求取对系统输入输出之间的依赖关系,使它能够对未知输出作出尽可能准确的预测。

机器学习问题的数学模型可以表示为:变量与变量存在一定的未知依赖关系,即遵循某一未知的联合概率密度,机器学习的问题就是根据个独立同分布的观测样本

在一组函数中寻找一个最优的函数对的依赖关系进行估计,使得期望风险(又称实际风险) 最小。

其中,称为预测函数集(又称学习函数、学习模型或者学习机器),它可以是任何函数集;是的广义参数;是用对进行预测时产生的损失(误差)。由期望风险的定义可以看出,它描述了学习机器在样本所在空间的每一个点上的风险的平均期望值,反映了学习机器的真实推广能力。机器学习的任务就是通过在有限样本上的训练,寻找一个使得期望风险(2)式最小的具体的函数。

不同的损失函数构成了不同类型的学习问题,主要有三类不同的学习问题,即模式识别,函数逼近和概率密度估计。对模式识别问题,一般其输出Y是样本类别标号,对于,此时损失函数为:

在函数逼近问题中,是连续变量,损失函数可以定义为

即采用最小二乘误差准则。而对于概率密度估计问题,学习的目的是根据训练样本决定的概率密度,估计的概率为,其损失函数定义为

本文主要讨论的模式识别问题,也就是在大部分情况下采用(3)式所示的损失函数。

1.2 经验风险最小化(ERM)原则

机器学习的目的在于通过对训练样本的学习,使得学习机器对所有样本预测和其真实输出尽可能相同,也就是使得期望风险(2)式最小。但在实际问题中,联合概率未知,只知道个观测样本式(1),因此期望风险是不能直接计算的,最直观的方法是计算学习机器在有限个训练样本上的损失的平均值,并选择使它最小的函数作为学习机器,也就是

式(6)的损失计算方法称为学习机器的经验风险,而通过使得经验风险最小来选择学习机器的训练方法称为经验风险最小化原则(Empirical Risk Minimization, ERM)。

事实上,用EMR原则代替期望风险最小化并没有经过充分的理论论证,只是直观上合理的想当然做法,但这种思想却在多年的机器学习研究中占据了主要地位。人们多年来将大部分注意力集中到如何更好地最小化经验风险上。而实际上,即使可以假定当n趋向于无穷大时(6)式趋近于(2)式,在很多问题中的样本数目也离无穷大相去甚远,当样本的数目有限时,ERM原则并不能保证学习机器的期望风险最小。

1.3 复杂性与推广能力

EMR原则不成功的一个典型的例子是神经网络的过学习现象,也就是当经验风险达到最小时神经网络的推广能力反而变差的现象。开始,很多注意力都集中在如何使更小,但很快就发现,训练误差小并不总能导致好的预测效果。某些情况下,训练误差过小反而会导致推广能力的下降,即真实风险的增加,这就是过学习问题。

之所以会出现过学习现象,一是因为样本不充分,二是学习机器设计不合理,

这两个问题是互相关联的。设想一个简单的例子,假设有一组实数样本(x,y),y在[0,1]之间取值,那么不论样本是依据什么模型产生的,只要用函数去拟合它们(是待定参数),总能够找到一个使训练误差为零,但显然得到的“最优”函数并不能正确代表真实的函数模型。究其原因,是试图用一个十分复杂的模型去拟合有限的样本,导致模型丧失了推广能力。

在神经网络中,若对有限的样本来说网络学习能力过强,足以记住每个样本,此时经验风险很快就可以收敛到很小甚至零,但却根本无法保证它对未来样本能给出好的预测。由此可看出,有限样本情况下,(1)经验风险最小并不一定意味着期望风险最小;(2)学习机器的复杂性不但应与所研究的系统有关,而且要和有限数目的样本相适应。

作者简介:

刘丹(1979-),女,辽宁省铁岭市人,硕士研究生,讲师,毕业院校:东北师范大学,研究方向:电子技术。

文章 样本 机器