5年前,大数据喷涌而来;现在,“大数据”这词已经不火了
   来源:爵爷曰     2020年03月27日 22:55

5年前——2012年2月——《纽约时报》刊文高呼人类的一个新纪元的到来:“大数据时代”。

该文章告诉我们,社会将开始发生一场革命,在这场革命中,海量数据的收集与分析将会改变人们生活的几乎每一个方面。

大数据引发的严重错误

虽然该词仍有被使用,但它更多地带有一种不好的意味,比如凯茜·奥尼尔(Cathy O’Neil)2016年的著作《数学杀伤性武器》(Weapons of Math Destruction)或者弗兰克·帕斯夸里(Frank Pasquale)2015年的《黑箱社会》(The Black Box Society)。匆忙执行和应用大数据,即进行所谓的“数据驱动型决策”,带来了严重的错误。

有的错误相当惹人注目:塔吉特(Target)曾向一位没跟任何人说过自己怀孕的少女的家庭派送婴儿用品优惠券;Pinterest曾恭喜一位单身女性即将结婚;谷歌照片(Google Photos)也曾引发轩然大波,该公司被大肆吹捧的AI将黑人误以为是大猩猩,原因是它的训练数据不够多元化。(值得指出的是,至少在该事件中,“大数据”还不够大。)

其它的错误更为微妙,或许也更加阴险。当中包括奥尼尔在她的重要著作中记录的那些不透明的数据驱动式制度性模型:被法庭用来判决罪犯的、带有种族偏见的累犯模型,或者那些基于可疑的测验分数数据解雇备受爱戴的教师的模型。大数据出错的新案例可谓层出不穷——比如Facebook算法明显帮助俄罗斯通过针对性的假新闻影响美国总统大选的结果。盲目迷恋数据与误用

“大数据”的问题并不在于数据本身很糟糕,也不在于大数据本身很糟糕:谨慎应用的话,大型数据集还是能够揭示其它途径发现不了的重要趋势。正如茱莉娅·罗斯·韦斯特(Julia Rose West)在最近给Slate撰写的文章里所说的,盲目迷恋数据,不加批判地使用,往往导致灾难的发生。

从本质来看,大数据不容易解读。当你收集数十亿个数据点的时候——一个网站上的点击或者光标位置数据;大型公共空间十字转门的转动次数;对世界各地每个小时的风速观察;推文——任何给定的数据点的来源会变得模糊。这反过来意味着,看似高级别的趋势可能只是数据问题或者方法造成的产物。但也许更重大的问题是,你所拥有的数据通常只是你真正想要知道的东西的一个指标。大数据不能解决那个问题——它反而放大了那个问题。未来展望

随着“大数据”不再被当做热词,我们有希望逐渐对数据的威力和陷阱形成更加细致入微的理解。回头来看,收集数据的传感器和分析数据的超级计算机一下子大量涌现,引发一股淘金热,以及很多时候错失这一切的恐惧会压过你的审慎情绪,都是可以理解的。与此同时,必然会有深思熟虑的人开始引起我们对这些情况的注意,大数据也不可避免地会带来反效果。

不过,大数据误用带来的威胁,不会仅仅因为我们不再用敬畏的口吻来说那个词而消失。看看Gartner 2017年技术成熟度曲线的顶峰,你会看到像机器学习和深度学习这样的词,以及代表这些计算技术的现实应用的无人驾驶汽车、虚拟助手等相关的词。这些是基于与大数据一样的基础的新“棚架层”,它们全都依赖于大数据。它们已经走在通向真正的突破的道路上——但可以肯定的是,它们也会导致严重的错误。

文章 数据 家庭