一种针对香港金融数据的情感分析方法
   来源:智能计算机与应用     2018年09月09日 11:50

一种针对香港金融数据的情感分析方法-咱对佐罗亚克是狐狸这一说法有点不赞同 牛头梗才是天理 佐罗亚克吧

罗旺 曾花芝

文章编号: 2095-2163(2018)03-0070-06中图分类号: 文献标志码: A

摘要: 关键词: (1 College of Computer Science and Software Engineering, Shenzhen University, Shenzhen Guangdong 518060, China;

2 College of Mechatronics and Control Engineering, Shenzhen University, Shenzhen Guangdong 518060, China)

Abstract: The new generation Internet, mobile Internet, cloud computing, and big data are strategic emerging industries that are being vigorously promoted in both HongKong and Shenzhen, which in recent years has rapid development momentum and has played a leading role in promoting the industrial upgrading of the two cities. However, due to historical reasons, some of the information pipelines and sources between Shenzhen and HongKong are not the same. In some cases of unusual stock transactions, the reasons behind them may not be clear. Therefore, it is of great and practical significance to analyze market sentiment and detect and prevent emergencies (including black box trading violations). This not only allows mainland shareholders to know in time the related (financial) events, news hot spots and market sentiments in HongKong, but also helps investors in Shenzhen and HongKong to grasp more comprehensive information and related event development trends, thus forming a relative judgements towards the recent trend of related stocks. Rational and objective judgments reduce investment risks caused by asymmetric information. This paper proposes a new text sentiment quantification method for the massive news data of the financial industry in HongKong, and proposes a new stock trend forecasting mechanism based on this method. This project intends to develop and implement a financial quantitative trading system based on sentiment analysis to verify the validity of the sentiment analysis method.

Key words:

作者简介:

收稿日期: 引言

新一代互联网、移动互联网、云计算、大数据是港、深两地都在大力推动的战略性新兴产业,近年来发展势头迅猛,为推动两市的产业升级发挥着引领作用。同时,作为国家战略的前海深港现代服务业合作区已经成为香港和深圳经济融合的支点,前海合作区的发展重点主要是金融、现代物流、信息服务和科技创新服务四大产业。其中,金融在经济发展中处于举足轻重的核心地位是不言而喻的。现有研究表明,社交网络的兴起使得人们在互联网上产生了大量的用户内容 (User Generated Content)。而且大規模云计算平台的迅速发展,即使得当下从这些用户内容中挖掘到随时随地发生的各种事件及社会舆情已经具备了现实可能,从而在时间和空间上多方位地了解和股票券商相关的事件及股民的动态需求。金融市场作为大众投资的主要管道,在社交媒体中同样得到了广泛关注。金融和财经事件的发现以及社会舆情分析,有助于大众股民对金融证券市场、特别是股票走势的判断,并在此过程中满足其行业需求与期待,从而在一定程度上帮助股民参详并把握市场的走向。特别地,按照国家的战略部署,在继“沪港通”开始运营之后,“深港通”作为最新的跨境证券股票交易市场即将开启。如何积极响应并对可能遇到的问题(比如异常跨境交易行为)提供有力的技术支持是 “深港通”亟需解决的重要问题。如何保护两地股民的利益,检测和预防突发事件(包括违纪黑箱交易)所带来的影响并提供两地股民必要的安全机制更是“深港通”能否成功的关键问题之一。

基于上述背景,针对证券行业应用提出异常交易触发的基于事件检测和舆情分析的金融量化交易系统。由于历史原因,深港两地有些信息管道和来源也不一样,在某些股票异常交易发生的情况下可能不清楚各自背后的原因。因此让两地的股民及时关注到在境内外发生的相关(金融)事件以及社交网络用户追踪议论的相关热点事件,可以帮助深港股民掌握更加全面的信息及整体事件的发展态势,从而对相关股票的近期走势形成相对理性与客观的判断,降低因信息不对称而造成的投资风险。该系统将在促进港、深经济建设与社会发展、加强两地证券行业的交流与合作、培养具有互联网思维的创新型金融人才等方面,产生巨大而深远的影响。

1国内外研究现状

1.1股票趋势预测

一般而言,股票预测手段分为技术分析和基本分析。技术分析是仅从证券的市场行为来分析证券价格未来变化趋势的方法。技术分析的理论基础是建立在如下3个假设之上的:即市场的行为包含一切信息;价格沿趋势移动;历史会重复。其特点是通过对市场过去和现在的行为考据,应用数学和逻辑的方法,探索出一些典型的规律并据此预测证券市场的未来变化趋势。基本分析又称基本面分析,是指证券投资分析人员根据经济学、金融学、财务管理学及投资学的基本原理,对决定证券投资价值及价格的基本要素,如宏观经济指标、经济政策走势、行业发展状况、产品市场状况、公司销售和财务状况,规范评估证券的投资价值,有效判断证券的合理价位,从而提出相应的投资建议的一种分析方法。

时下工作聚焦面对的预测对象包括股票市场指数,如道琼斯工业平均指数[1-2]、纳斯达克指数[3],运营实体公司则如Apple、Google、Microsoft。

1.2基于市场数据的预测

传统的股票预测主要依赖市场的历史数据进行预测,即通过对历史股票交易数据序列建模来对未来股票价格走势进行预测,属于典型的技术分析。其中,自回归条件异方差模型(ARCH)[4]和随机波动模型(SV)[5]已广泛应用于时间序列数据的建模。但这类方法只考虑历史价格这种单一数据源,预测的效果具有很大的局限性。

1.3相关文本数据的预测

随着社交网络的兴起和自然语言处理技术(Natural Language Processing)的进步,基于舆情相关的文本数据进行股票预测吸引了学界的研究兴趣与高度重视。其中,财经新闻网站由于具有信息专业、噪声少的优点,受到研究者的广泛推崇与青睐,如华尔街日报[2]、雅虎财经[6]等。该类预测模型从新闻的标题或者正文中提取特征,并在此基础上设计算法展开相关的模型预测。这些特征中,包含着用户、金融公司或科研机构传达的对于市场或者股票的观点和情绪。行为经济学指出,这些观点和情绪与股票市场波动息息相关。尤为关键的是,这类文本有时间点的提前性。

为了更加准确、全面地传达多方的观点和情绪,特征提取是模型的关键步骤之一。除了传统的词袋模型(Bag-of-words)[7],如TF-IDF等,还有Google最新提出的体现词汇关联程度Word2Vec和针对多文档的Doc2Vec[8]。

1.4预测模型

基于输入的新闻样本,机器学习算法通过训练得到最终的预测模型。输入的新闻文本会经过特征选择处理成相应的矩阵;模型输出的目标值是代表情感极性的正负数字。对于目前的这种分类问题,颇具实效并已经广泛采用的是K最邻近(KNN)、逻辑回归(Logistic)、朴素贝叶斯(Nave Bayes)、随机森林(Random Forest)[9]等机器学习模型。

2情感模型

2.1基本概念及相关知识

(1)N-gram。 N-gram是大词汇连续语音识别中常用的一种语言模型,对中文而言可称之为汉语语言模型(Chinese Language Model,CLM)。汉语语言模型利用上下文中相邻词间的搭配信息,可以实现到汉字的自动转换。该模型基于这样一种假设,即:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数运算得到。常用的是二元的Bi-gram和三元的Tri-gram。

(2)词向量。 近几年来,随着深度神经网络的发展,词向量已经拓展深入到自然语言处理的各个方面。传统的词向量表示方法是将词表示为二进制编码性质的向量,也就是一维词向量(one-hot representation),向量的维度为词表的大小,向量中的1代表该位置出现该词,0代表该位置没有出现该词。但是这种一维表示方式的向量,2个词之间相互独立,难以捕捉隐含在词语之间的语义关联,并且难以计算,特征稀疏,向量维度较高。随后很多学者开始研究词语的分布式表示,简称词向量。

2.2情感词典准备和新词发现

对于中文这种没有明确词界限的语言,分词算法的准确率决定了此后工作中特征选择是否能够全面体现股票相关方的观点和情绪。目前主流的中文分词有结巴分词、中科院分词系统和NLTK处理包,根据已有的经验总结和性能的比较,研究采用了结巴中文分词。

由于前文提到的詞库都是面向通用型的,适用于所有领域,即会使得当将其应用到特定领域时难免在性能上出现偏差与缺失。比如对于金融领域里的专业术语以及市场上出现的新词不能很好地做到切分。为了减小通用词库的不足为实验带来的影响,研究在原有词库的基础上,又融合了知网的情感词典和台湾大学NTUSD词典。为了应对更生僻的专业词和出现的新词,进一步引入N-gram来发现新的词序信息[10],从而实现新词发现,确保能够全面汇集股票相关方的观点和情绪。研究中发现的部分金融领域的情感词则如图1所示。

齐挫造淡走低急跌重挫利淡熊市报升背驰回落下跌直下强拆扭转走高标青买超反弹高开微升上涨做多领跑新高偏软盈利亏损钱荒牛市抄底连捷破顶反弹跳水斩仓阻力逃顶上望见底升温2.3特征提取

本模型中,为了使机器学习算法更好地理解文本,且最终获得更好的精准度,研究中采用了多种特征提取方法。这里,将逐一给出阐释解析如下。

(1)OneHot。 这里选择使用的经典的独热编码(One-hot)是参考Harris的论文[11]中探讨的原理来实现的。

(2)TF-IDF。 为了体现特征在训练集中的重要程度,研究中将TF-IDF公式略作修改,并用于金融新闻文本中。改进后的公式可表述如下:idfi=log (Nni+1) (1)其中,N表示语料库中所有的文本总数,ni为包含词i的文本数。

(3)Word Frequency。 基于情感词典词频(Word-Frequency)的方法是参考了2016年周杰发表的论文[12],并由其引发推演而来。而对于一些较短的文本,为了更趋理想地降低多维度造成的误差影响,实验过程中尝试将所有情感词Word-Frequency 压缩成更低维度,经过实验验证,分为积极和消极2个维度的特征提取后的机器学习算法的准确性则为更高。

(4)Doc2Vec。 Doc2Vec是word2Vec的一个延伸,word2Vec是谷歌于2013年推出的最新款词向量学习工具,迄今为止在点击使用上已占据首位。该模型所选取的语言模型使用3層神经网络结构,综合考虑了词语的上下文信息,这种词的特征表示不仅扩充了词的语义信息,而且还大幅提升了模型的训练速度。

(5)OutOfDict。 一个优良的预测模型应该拥有出色的泛化能力来处理更多的未知问题。因此,研究结合情感词典和词袋模型[7]中的Out-Of-Dict来防止情感词典提取的特征所造成的模型过拟合,更加可观地提高模型泛化能力。

2.4消除噪音

尽管金融新闻文本具有专业性强、噪声低的优点,但是海量文本数据所造成的“噪声干扰”会严重影响模型的准确性。减小影响的办法是去除原新闻文本中的非专业名词和一些不重要的介词。并且,研究收集了针对中文的常见停用词和一些可能出现在新闻文本中但没有意义的数字符号,对其引入过滤处理后,以此增大代表金融相关方情绪和观点的情感词和动词对于模型的影响。

2.5模型选择

为了更准确地衡量出新闻数据中的情感,这里又研究尝试了多种机器学习方法。各类方法的设计内容可分述如下。

(1)NaiveBayes。 朴素贝叶斯(Naive Bayesian Model,NBM)是基于贝叶斯定理与特征条件独立假设的分类方法,也是时下普及、流行的分类模型之一。因为NBC模型所需估计的参数很少,对缺失数据并不敏感,算法也比较简单。而在理论上,NBC模型与其它分类方法相比具有最小的误差率,所以可将其作为候选模型之一,用于结果对比。

(2)Logistic Regression。又称Logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域。其中的自变量既可以是连续的,也可以是分离的。通过Logistic回归分析,可以得到自变量的权重,从而自动进行特征选择。

(3)SVM。 支持向量机(Support Vector Machine, SVM),是常用的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。在考察调研了大量文献后,发现很多学者偏好选择SVM用于建模分析。基于此,这里也将其作为候选模型之一。

(4)随机森林(Random Forest)。是指利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Breiman等人提出,并已注册为品牌商标。在机器学习中,随机森林是一个包含多个决策树的分类器,而且其输出的类别是由个别树输出的类别总数而定。

(5)KNN 邻近算法,或者说K最近邻(k-Nearest Neighbor,kNN)分类算法。是数据挖掘分类技术中实效简单的方法之一。所谓K最近邻,就是k个最近邻居,是指每个样本都可以用与其最接近的k个邻居来表征与刻画。kNN算法的核心思想是:如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在输出分类结果决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。并且,该方法主要利用周围有限的邻近样本,而非基于判别类域的方法来确定所属类别,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其它方法更为适合。

3实验过程

3.1数据

新闻爬取量分析主要从日粒度和周粒度2个时间维度进行分析,具体如图2所示。这是每天的新闻爬取量的柱状图。由图2可以看出,正常工作日大约是超过千余的新闻爬取量,周一到周五新闻数量比较稳定,到周末新闻数量就大大降低。此外,在公众假期,如国庆、五一等,新闻数量也会保持在较低的水平。这就说明香港金融市场的工作模式:周一到周五正常交易,周末、法定节假日以及特殊日期交易活动较少。

截至2017-10-30日,数据库中近5年的金融文本数据共有80余万条,为了保证模型能够适应最新的情况,研究从最近一年的金融文本中随机抽样并且过滤掉重复新闻后,得到1 000条新闻文本。采用人工打标的方式,为每条新闻增配上代表情感极性的标签。利用上述的特征选择和噪音消除,将文本处理成机器学习算法可以理解的词向量后提交至算法加工处理。构建的新模型会根据新样本来生成代表情感极性的标记。数据从原始文本到词向量的过程可如图3所示。

3.2组合模型训练

将文本处理成词向量的方法包括有:TF-IDF、Out-of-Dict、Word-Frequency、One-Hot、Word-Frequency(低维度)和Google的Word2Vec;对于机器学习算法,考虑到现有文献成果和金融新闻文本特点挑取效果较好的KNN、Logistic、Nave Bayes、Random Forest,共计5*6(=30)种算法组合,进行训练,而后选出准确率最高的组合,实现对应的特征提取方法优化和机器学习算法的调参优化。

模型的检验分为稳定性检测和泛化能力检测。对于模型稳定性,由于项目周期较长,研究采用了K折交叉验证(K-fold cross validation)中的留一验证。为了测试模型对于新样本的泛化能力,可从5年内的样本集合中随机采样,进行人工打标与模型打标,并提供最终的结果比对。

3.3多种组合方法的实验结果对比

这里,研究将所有的候选模型分别与已选取的特征选择方法相结合,并以准确率为标准对比了所有组合的性能,实验设计运行结果如图4所示。

需要指出的是,在100个和500个训练样本的时候,由于样本数量过少,研究并没有采用特征提取中论及的Doc2Vec方法。随着训练样本的增多,逻辑回归(Logistic)和随机森林(Random-Forest)算法的准确度提升较快并且比较稳定。结合股票金融文本短小、更贴近标准的特点,研究斟酌选定了基于词袋模型(Out-of-Dict)和情感词典的特征选择方法与逻辑回归算法作为最终模型进行精准调参和优化,并且將其用在股票趋势分析和预测中。

虽然研究选择的模型整体准确率偏高,但仍有部分样本被分错,分析猜夺后可知也许是因为这里选择的模型具有一定的倾向性,或者研究中的样本类别未臻至均衡而导致。为了检测本文实验中被错分样本的原因,又特别分析了结果的混淆矩阵。

研究中抽取最新的1 000条金融新闻文本(过滤掉一些重复新闻后有972条),进行人工打标后,按照3:1的比例分割训练集和测试集,得到如图5所示的结果矩阵。其中,精确率(precision)为100%,召回率(accuracy)为94.52%。显然,由图5可以看出,本文的模型表示是正常的,而且类别比例是3∶1。同时,本次研究中采用的是分层抽样,因此数据本身的分布不存在问题。

4情感模型有效性分析

为了进一步验证该情感模型的有效性,研究建立了一个基于情感分析的量化交易系统,通过该系统展示实时的股价数据趋势与本文提出的情感模型计算得到的主体情感的对应关系。研究认为,当股价持续上涨时,市场对应的金融新闻的情感理论上应该是积极的;当股价持续下跌时,市场对应的新闻的情感理论上应该是消极的。基于该假设,研究将试图通过股价的趋势变化与新闻情感正负的同步变化来验证本文设计的情感模型的有效性。

基于情感分析的量化交易系统是一个集成型系统。该系统主要包括舆情数据概括和金融舆情分析两大模块,囊括了新闻的爬取量的变化分析、新闻热度分析以及两者与新闻情感之间的关系,并从股票衍生品、恒生指数衍生品和股票本身的波动幅度3方面与新闻情感、热度进行交叉分析,用实际的数据变化阐述了隐藏其中的基于情感因素的交易策略。

在该量化系统中,运行时主要从股价走势、新闻热度和舆情分析这3个层面分析和预测股价走势。其中,在股价走势方面,研究通过多方渠道得到官方股价每日最高/低、开/收盘价格,并且定制了相应的股价曲线图和箱形图供用户使用和查看。在新闻热度方面,研究统计了50支恒生指数成分股在5年内的新闻热度,并于每天分别配设了实时跟进。而在舆情分析方面,基于预测模型抽取金融相关方对于股价走势的观点和情绪,并做出趋势预测。

在量化交易系统中,研究使用金融舆情分析模块来分析新闻情感与股价之间的关系。这里,金融舆情分析是指运用前面章节建立的情感模型分析新闻的情感极性,然后根据正负新闻的数量变化与股价波动的直接关系,推测出市场的状态以及未来的股价走势。

通过分析,新闻舆情与股价是有很强的相关性的。当正面新闻剧增或者负面新闻急剧积累时,市场处于转向期,股价也有了相应方向的走势。

如图6所示,作为2017年涨幅最大的股票,恒大上半年股价几乎原地踏步,新闻舆论也反映平淡;但下半年开始股价疯涨,舆论也一片叫好。同样地,还有平安保险。这些实例都无疑论证了本文的情感分析方法的有效性。

5结束语

随着新一代互联网、移动互联网、云计算、大数据的发展,在证券行业,券商们已经意识到大数据的重要性。但相对于银行和保险业,证券行业的大数据应用起步相对较晚,对于大数据的研究与应用正处于初级阶段。因此将大数据研究应用到证券行业,分析其新闻数据的情绪变化具有深远的意义。本项目主要研究目的是针对香港金融市场海量的新闻数据展开情感分析,主要工作内容包括如下方面:

(1)针对目前国内金融行业大数据应用的不足以及香港市场广阔的研究前景,研究针对香港的新闻文本数据进行情感分析。

(2)采用了混合新词发现算法,建立了专门针对金融领域的词典。

(3)对比分析了主流的情感分析方法,建立了一个可靠的情感模型。

(4)提出股票的情感因素对股价趋势具有显著影响,并给出了实验仿真验证。

随着大数据时代的到来,数据量日趋增加,对在线媒体的新闻进行情感分析,现有的研究算法普遍耗时较长,并且仍然依赖人工标记的数据,这已无法适应急剧增长的数据需求。可以考虑利用数据和模型并行化来优化模型算法,例如可以利用Spark, Hadoop等云计算框架对已有的算法实现改进,提高效率。尽管模型采用了多种方法,但并没有在深度学习的框架上进行训练,学习时间相对较长,可以采用现有的流行框架开展后续的深入研究。

参考文献

[1] BOLLEN J, MAO Huina, ZENG Xiaojun.Twitter mood predicts the stock market[J]. Journal of Computational Science, 2011,2(1):1-8.

[2] ANTWEILER W, FRANK M Z. Is all that talk just noise? The information content of internet stock message boards[J]. Journal of Finance,2004,59(3):1259-1294.

[3] RACHLIN G, LAST M, ALBERG D, et al. ADMIRAL: A data mining based financial trading system[C]//2007 IEEE Symposium on Computational Intelligence and Data Mining. Honolulu, HI, USA:IEEE, 2007:720-725.

[4] ENGLE R F. Autoregressive conditional heteroscedasticity with estimates of the variance of United Kingdom inflation[J]. Econometrica,1982,50(4):987-1007.

[5] TAYLOR S J. Modeling financial time series[M]. Chichester,UK:Wiley,1986.

[6] SCHUMAKER R P, ZHANG Yulei, HUANG C N, et al. Evaluating sentiment in financial news articles[J]. Decision Support Systems,2012,53(3):458-464.

[7] CSURKA G, DANCE C R, FAN Lixin, et al. Visual categorization with bags of keypoints[C]//Workshop on statistical learning in computer vision. Prague:Springer-Verlag,2004:1-22.

[8] GOLDBERG Y, LEVY O. word2vec explained: Deriving Mikolov et al.'s negative-sampling word-embedding method[J]. arXiv preprint arXiv:1402.3722,2014.

[9] BREIMAN L. Random Forests[J]. Machine Learning,2001,45:5-32.

[10]BUTLER M, KEELJ V. Financial forecasting using character N-Gram analysis and readability scores of annual reports[M]//Gao Y, JAPKOWICZ N.Advances in artificial intelligence. Berlin/Heidelberg: Springer,2009,5549:39-51.

[11]HARRIS D, HARRIS S. Digital design and computer architecture[M]. 2nd ed. San Francisco, CA, USA:Morgan Kaufmann Publishers Inc,2012.

[12]周杰. 基于情感詞典与句型分类的中文微博情感分析研究[J].银川:宁夏大学,2016.

模型 文章 情感