数据可视分析研究现状与发展趋势的图谱分析
   来源:现代电子技术     2018年07月29日 10:34

数据科学研究的现状与趋势全解

乔萨础拉 努尔布力 苏芮

摘 要: 以Web of Science中近20年2 709篇数据可视分析文献为研究对象,采用基于图谱分析的研究机构合作、文献共被引、关键词共现、突现词分析等方法,系统的回顾了数据可视分析方法研究的关注点、国际研究脉络及发展规律。研究发现,截止目前,已完成基础理论和体系架构研究,并在延伸新的典型应用领域。其中,美国和德国的研究机构具有较强科研水平,社交媒体数据、网络安全数据和地理信息数据已成为重要數据来源。分析结果有助于为我国数据可视分析领域的研究人员提供了研究现状及进展的参考。

关键词: 可视分析方法; 图谱分析; CiteSpace; 研究现状; 文献共被引; 数据分析

中图分类号: TN957.52?34; 文献标识码: A 文章编号: 1004?373X(2018)14?0161?05

Map analysis for research status and development trend of data visual analysis

QIAO Sachula, Nurbol, SU Rui

(School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)

Abstract: With 2 709 data visual analysis papers from Web of Science in recent 20 years as the research object, the focus points, international research context and development law of data visual analysis method research are systematically reviewed by using such map analysis based methods as research institution cooperation, literature co?citation, keyword co?occurrence, and burst term analysis. The research found that up to now, researchers have completed the basic theory and system architecture research, and are expanding to new typical application fields; the research institutions of the United States and Germany have a high scientific research level; social media data, network security data and geographic information data have become important data sources. The analysis results can provide a reference in research status and progress for Chinese researchers in the data visual analysis field.

Keywords: visual analysis method; map analysis; CiteSpace; research status; literature co?citation; data analysis

0 引 言

随着互联网的快速发展,大数据时代已经来临。面对海量数据,如何处理、分析以及存储是摆在人们面前亟待解决的问题,其中数据可视分析技术是大数据分析的重要方法,可以帮助数据分析人员更快地找到数据中隐含的规律和模式。数据可视分析技术从20世纪90年代开始发展,逐渐展现出其重要性,引起各国的重视。目前,国内虽然有专家从不同的角度对数据可视分析进行了研究综述,却对于分析国际上数据可视领域的研究现状与趋势并不全面。鉴于此,本文以Web of Science的核心数据库为数据源,利用CiteSpace工具的文献计量方法对收集到的文献进行统计分析并绘制出知识图谱,解决下面的三个研究问题:

1) 国内外近20年来在数据可视分析领域的主要研究机构有哪些?

2) 国内外近20年来数据可视分析领域的研究热点有哪些?

3) 国内外数据可视分析领域的研究脉络的发展有什么规律?

本文的具体工作如下:首先阐述了数据来源与研究方法,接下来对数据可视分析研究进行描述分析,得到该领域的主要研究机构、研究热点及演化脉络。最后对分析结果进行讨论和比较,力图客观和形象地展示国内外数据可视分析领域研究的现状与趋势,为我国数据可视分析领域的研究人员提供有力参考。

1 数据来源和研究方法的说明

1.1 数据来源

本文的文献来源于Web of Science信息检索平台的核心数据库。Web of Science是全球最大、覆盖学科最多的综合性学术信息资源。本文的数据源采用以下方式收集:

1) 主题词检索方法,TS=((data "visual analysis")or(data "visual analytics"))。

2) 文献时间跨度为1998—2017年。

3) 文献类型是期刊(ARTICLE)和会议论文(PROCEEDINGS PAPER)。总共得到2 709篇文献并且下载这些文献的题录,文献题录包括作者、标题、关键词、摘要、参考文献等25个属性信息。

1.2 研究方法说明

科学知识图谱不仅能揭示知识来源及其发展规律,并以图形表达相关领域知识结构关系与演进规律[1]。本文通过可视化工具CiteSpace对1998—2017年的2 709篇文献进行了研究机构的合作网络分析、研究热点的共词分析以及基于文献共被引的演化过程分析。

可视化工具CiteSpace是由美国德克赛尔大学(Drexel University)的陈超美博士研发的文献分析工具,可用于追踪研究领域热点和发展趋势,了解研究领域的发展前沿及演进关键路径,重要的文献、研究机构等[1]。直接导入从Web of Science上下载的文献题录进行可视分析,只要把文档命名时以“download_”开头即可,软件免费而且适合分析各个研究领域的文献。

2 研究结果与分析

2.1 主要研究机构分析

通过对数据可视分析文献发表量的研究机构的基本情况进行统计后,发表文献超过10篇的研究机构有46个,发文量11~20篇的有27个机构,发文量21~30篇的有14个机构,30篇以上的有5个机构。表1列出的是最多产文献数量排名前13位的研究机构。德国的康斯坦茨大学发表文献以69篇论文位于榜首。TOP13榜单里美国的研究机构占6个,德国和奥地利的研究机构有2个,中国、英国、西班牙各1个。图1展示了研究机构之间的合作网络关系,如果两个研究机构之间有合作关系就会有不同粗细的线来链接两个研究机构。连接线越粗代表两个研究机构合作越多,连接线越细代表两个研究机构合作越少。中心性可以用来表征节点与其他节点之间的联系以及在整个网络中的重要地位和作用[2]。中心性越高的研究机构影响力越大,地位越重要。从中心性的角度看很多研究机构的中心性是0,这表示他们对其他的研究机构没有产生影响。中心性大于0的总共有19个研究机构,其中美国的机构6所,德国的机构5所,中国的机构4所,加拿大、英国、挪威和奥地利的机构各1所。

总体来说,美国、德国及中国的研究机构在国际上的数据可视分析领域上占着主导的地位,有一定的影响力。但以国家中心性的角度来看,中国的中心性非常低。这表明中国的研究机构与国际上的研究机构的联系和影响比较小,但是国内的研究机构相互之间的联系和影响比较大。

2.2 基于共词分析的研究热点

研究主题的分布可以直观地体现不同时序内的热点问题、分析视角、研究方法的变化[3]。而关键词是文献主题内容的精炼表达,它可以直接地體现文献的思想内容,是文献计量分析中不可忽略的重要指标。鉴于此,通过关键词共现分析(图2)来鉴别数据可视分析研究的主要热点,并对该研究领域主题结构的发展变化做出判断。图2中的每个年轮最外层的圆环表示了文献的中心性,每个同心圆表示共引关键词,深浅层次不同的圆环表示关键词被引的不同年份,关键词之间的紧凑关系代表着关键词之间的关联关系。其中文字大小与同心圆的大小成正比,同心圆越大表示相应的文字越大,关键词的频次也越高。表2列出的TOP13个词是频度较多、中心性较高及激增数较大的关键词,该表列出的首次出现年份是基于本文的研究文献。

2.2.1 频数指标计量分析

频数(Freq)指的是当前分析的某个节点出现的次数,通过分析频数可以得到某个领域的研究现状。通过表2可以发现从2000年开始,国内外开始关注可视分析技术,最早起步是在1999年,开始发展正电子成像技术,该技术的发展对可视分析技术的发展奠定了基础。到2006年,可视数据挖掘及数据与知识可视化等概念被提出,新的技术、新的理念不断的加入到数据可视分析研究上,数据可视分析技术开始迅速发展,得到了国内外很多研究者们的关注。

2.2.2 中心性指标计量分析

近20年数据可视分析研究中心性(Centrality)较高,前13个主题见表2。其中,1999—2002年间首次出现的关键词中心性相对其他关键词来说中心性较高,如“validation”“system” “algorithm”等,系统研究、算法改进、评估有效性是给数据可视分析研究提供了基础技术的支撑,很多研究领域发展的过程中这些技术都是必不可少的研究范围。从2006年开始,研究主题词的中心性开始变小,大部分主题词的中心性都是0,如“geovisualization”“big data”“social media”等,导致该现象的主要原因是随着数据可视分析技术的发展,很多研究产生了不同的分支,研究领域逐渐变多,主题词之间的影响力开始变小。近几年的研究侧重于大数据、社交媒体、机器学习及多维数据等,更加注重研究大量而复杂数据的可视分析,大数据呈现的特点是容量大、类型多、价值高、速度快,因此数据可视分析技术面临的最大挑战是如何对大数据进行有效的可视分析。

2.2.3 突现指标计量分析

突现(Burst)指标指一个变量在短期内发生显著变化的值,CiteSpace的这种突现信息是用来分析文献深层变化信息的一种度量手段。因此研究前沿可以看作以突现的高频词变化情况探索学科发展领域的前沿变化[4]。“positron emission tomography”是最早出现突现性并延续时间很长的关键词。从这个突现词发现数据可视分析技术刚开始用在医学和电子技术上。2006年出现了两个突现词,分别是“data and knowledge visualization”和“visual data mining”,数据挖掘领域开始使用可视分析技术。2008年出现了地理信息可视化领域的突现词“geovisualization”,Peuquet D J和??ltekin A在文中分别用3D技术和T型模型分析技术对地理数据进行可视分析[5?6]。而从2014年到现在出现了两个突现词“social media”和“big data”。从整体来分析,可以初步判断一些信息技术相关的领域兴起于发展;如“big data”,首次提出时间是2008年8月中旬,而从本文研究的文献中来,2012年才首次出现“big data”,而在2015年呈现突增。

3 研究演化分析

文献共引图谱的实质是共被引分析图谱。共被引分析是指当两篇文献同时出现在另一篇文献的参考文献目录时,则这两篇文献已构成共被引关系。而高被引文献是一个研究领域重要知识来源,反映着某一学科的研究水平、发展方向,是探究热点主题、研究演化的重要依据[1]。图3展示了共被引文献共现聚类分析图,包括6个知识群聚类,从下到上、从左到右,该过程表示时间的推移过程。每个时期都有相应的多个高被引文献,通过高被引文献的主题词给每个知识群聚类命名。知识群之间的关联关系和推移过程表示数据可视分析研究发展的演化过程。

下面将围绕时间顺序对知识群聚类进行阐述:

1) #3和#5聚类。#3和#5知识群组是国际数据可视分析研究领域中最早达到研究阈值的聚类群组,两个知识群组统称为“数据可视分析起源”群组。“起源”群组中文献初次共被引时间是在2002—2003年,文献总量较低,与#0群组和#1群组有连接关系。通过该群组的原文献研究发现,该群组的研究集中在“可视化方法研究”和“可视分析技术理念推介”两个方面。其中可视化方法研究是从对多维数据可视化的角度来诠释可视化方法的价值与重要性。Johansson J等人都在文献里提出多维数据的可视化[7]。而“可视分析技术理念推介”主要借助于可视化方法的发展和研究成果,当传统及单一的可视化方法很难分析复杂的、高维的数据时可视分析技术就应运而生。可见,初期国际数据可视分析研究主要是研究可视化方法,提出可视分析方法的理念,该时期可视化方法的发展为后续可视分析技术的发展奠定了基础。

2) #0和#1聚类。#0和#1知识群组里出现次数最多的主题词分别是“interactive visual analysis”和“visual analytics”,从两个主题词发现该时期主要研究发展对象是“交互式可视分析”,因此该两个知识群组统称为“数据可视分析发展”群组。“发展”群组是文献总量较多、中心度较高、连线密集,并于其他群组节点有着较强的连接关系。该群组首次共被引时间是2005—2006年。该阶段扩展了可视分析方法的研究,取得了丰富的研究成果与结论。从“发展”群组的大量文献发现,该群组的文献强调的人机交互能力,使用可视分析方法为数据分析人员提供有效的交互手段并提高他们的认知能力。该群组中中心性最高的2个节点文献是整个共被引文献网络的重要节点。第一篇共被引文献是Thomas J J等人2005年寫的一篇文献“Illuminating the path:the research and development agenda for visual analytics”[8],该文献总被引频数是131次。文献中介绍美国的国土安全局成立国家可视化与分析中心的主要目标是研究和发展可视分析技术,用可视分析技术发现信息的内在关联、使用交互式的图形来提高人机交互能力。这篇文献是数据可视分析研究的经典文献,为可视分析的后期研究提供了技术和理论基础。第二篇共被引文献是2008年发表的文献“Visual analytics:definition,process,and challenges”是被引频数较多的一篇文献。文献里详细地描述了可视分析的定义、发展和未来面对的挑战。文中提到可视分析方法不仅可以解决对大数据进行分析,而且可以让机器和人进行交互。该文中解释了信息可视化与可视分析的区别,并且把可视分析明确地定义为“可视分析是结合自动化分析技术与交互式可视化对非常大的复杂数据进行有效的理解、推理和决策”[9]。该概念得到了数据可视分析领域的研究者们的普遍认可,为后续可视分析研究提供了重要的研究视角。

3) #2和#4聚类。#2和#4知识群组是“数据可视分析深化”群组。该群组与“发展”知识群组有节点的连接,呈现出共被引文献的网络重叠。由此可见,该知识群组是“发展”知识群组的研究分支,数据可视分析研究进入活跃期,有了多态化的研究中心,该阶段是对可视分析技术的实践应用和研究发展。文献首次共被引时间是2010—2011。其关键节点文献“D3:data?driven documents”是共被引频次最多的一篇文献,频次是70次。该文献中介绍的D3[10]是一个用于数据可视化开发的JavaScript库,D3融入到了整个Web开发体系中,使用起来方便,可以绘制各种各样的可视化图,对可视分析技术的发展有了很大的促进作用。从该群组的大量文献发现,该群组的主要研究对象是来自社交媒体数据的可视分析。Zhang J和Chua A等人分别对微博和推特等社交媒体数据进行可视分析[11?12]。该群组通过前面群组的知识储备和理论研究,利用可视分析方法对不同领域的数据进行可视分析并得到了该领域研究的成果。

通过可视化工具CiteSpace对Web of Science平台的核心数据库中的2 709篇关于数据可视分析研究的文献进行可视分析。展现了国际数据可视分析研究的情况。通过前文的分析和研究发现,数据可视分析研究的发展分为三个阶段: 初创阶段(1998—2004)、发展阶段(2005—2010)、深化阶段(2011—2017)。表3列出三个阶段的主要研究热点、研究领域及研究脉络。

4 结 语

结合表3的总结和前文的分析,对全文的总结如下:

1) 国际数据可视分析领域的研究文献质量一直在稳步提升。在文献的数量和国际影响力上美国和德国处于总体领先地位,而中国凸显出文献数量多国际影响力低的特点。

2) 国际数据可视分析研究领域已经形成了较为完整的研究网络,即有非常多的关键节点文献可以提供理论基础和实验论证,又有表现各时期研究热点的研究脉络,为以后的数据可视分析领域的发展打下了坚实的基础。

3) 国际数据可视分析研究从单一、较少的研究领域走向多样化的研究领域,不断地在延伸和拓展研究分支。逐步建立自身的知识体系和技术体系。

参考文献

[1] 杨良斌,周新丽,刘益佳,等.近10年来国际网络安全领域研究现状与趋势的可视化分析[J].情报杂志,2017,36(1):92?100.

YANG Liangbin, ZHOU Xinli, LIU Yijia, et al. The specialty visualization study of current trends and issues of international network security fields in recent 10 years [J]. Journal of intelligence, 2017, 36(1): 92?100.

[2] 王春雪,吕淑然,索晓.国内外阻燃剂研究现状可视化分析[J].消防科学与技术,2016(5):660?663.

WANG Chunxue, L? Shuran, SUO Xiao. Visualization analysis of the present situation of flame retardant research home and abroad [J]. Fire science and technology, 2016(5): 660?663.

[3] 秦晓楠,卢小丽,武春友.国内生态安全研究知识图谱:基于Citespace的计量分析[J].生态学报,2014,34(13):3693?3703.

QIN Xiaonan, LU Xiaoli, WU Chunyou. The knowledge mapping of domestic ecological security research: bibliometric analysis based on Citespace [J]. Acta Ecologica Sinica, 2014, 34(13): 3693?3703.

[4] 刘璐祯,周为吉,郑荣宝,等.基于学科知识图谱的国内土地资源管理学科演进及其进展研究[J].中国农业大学学报,2017,22(1):189?202.

LIU Luzhen, ZHOU Weiji, ZHENG Rongbao, et al. Research on the evolution and development of land resource management in China based on the discipline knowledge map [J]. Journal of China Agricultural University, 2017, 22(1): 189?202.

[5] PEUQUET D J, ROBINSON A C, STEHLE S, et al. A method for discovery and analysis of temporal patterns in complex event data [J]. International journal of geographical information science, 2015, 29(9): 1588?1611.

[6] ??LTEKIN A, LOKKA I, ZAHNER M. On the usability and usefulness of 3d (geo)visualizations: a focus on virtual reality environments [J]. ISPRS?International archives of the photogrammetry, remote sensing and spatial information sciences, 2016, XLI?B2: 387?392.

[7] JOHANSSON J, LJUNG P, JERN M, et al. Revealing structure within clustered parallel coordinates displays [C]// Proceedings of IEEE Symposium on Information Visualization. Minneapolis: IEEE, 2005: 17.

[8] THOMAS J J, COOK K A. Illuminating the path: the research and development agenda for visual analytics [M]. Washington: IEEE Computer Society, 2005.

[9] KEIM D, ANDRIENKO G, FEKETE J D, et al. Visual analytics: definition, process, and challenges [J]. Information visualization, 2008, 4950: 154?175.

[10] BOSTOCK M, OGIEVETSKY V, HEER J. D3: data?driven documents [J]. IEEE transactions on visualization & computer graphics, 2011, 17(12): 2301?2309.

[11] ZHANG J, AHLBRAND B, MALIK A, et al. A visual analytics framework for Microblog data analysis at multiple scales of aggregation [J]. Computer graphics forum, 2016, 35(3): 441?450.

[12] CHUA A, SERVILLO L, MARCHEGGIANI E, et al. Mapping Cilento: using geotagged social media data to characterize tourist flows in southern Italy [J]. Tourism management, 2016, 57: 295?310.

可视 文献 数据