电子商务中基于客户偏好和情感评估的个性化推荐算法
   来源:智能计算机与应用     2018年09月09日 10:51

...经过与客户深入交流,了解客户需求及生活习惯后,才进行外观设计...

杨茂保

文章编号: 2095-2163(2018)03-0118-04中图分类号: 文献标志码: A

摘要: 关键词: customer preference and emotional evaluation in E-commerce

(School of Electronic Commerce, Jiujiang University, Jiujiang Jiangxi 332005, China)

Abstract: In the era of e-commerce, online customer reviews have become a source of information for the general and valuable customers and businessmen to make business decisions. Based on sentiment evaluation,the paper finds potential customers' preferences, proposes an improved collaborative filtering algorithm, and predicts customers' future needs for enterprise services or products (collectively referred to as entities). Specifically, the method consists of three main steps: level emotion assessment, customer preference mining and personalized recommendation. First, the level of the structural review of the transformation of optical character recognition is evaluated by the level of emotion. Second, customer preference mining uses the vector to extract the feature words from the emotion, and assigns the polarity to each emotion. Finally, the customer preference and customer similarity are calculated by using characteristic words and emotional polarity score. Personalized recommendation of services and products is utterly generated based on customer similarity. The experimental results show that the method is superior to the traditional collaborative filtering method.

Key words:

基金項目:

作者简介:

收稿日期: 引言

随着电子商务网站的快速发展,网上用户选择合适的实体即已成为一个繁琐的过程。为了有效应对这样一个广泛的商业问题,大多数电子商务网站将互联网技术和客户数据结合起来,开发一个推荐系统,利用顾客的背景和行为来预测其兴趣偏好,再借此助力零售站点做出适当和个性化的建议。这些个性化的推荐系统可以有利于提升信息处理和现场互动效果,并且运用了多种技术,最终目的是向客户展示最相关和最吸引人的信息。

到目前为止,各种推荐的方法已获提出,包括基于内容的推荐、基于规则的推荐和协同过滤等方法。其中,协同过滤算法还可细分为基于用户的推荐、基于项目的推荐和基于模型的推荐。只是在每一种方法中,仍然存在一些不足,削弱了推荐的实效性,必须引入后续的研究改进。例如,基于项目的推荐只考虑Web页面的内容而非客户的兴趣或需求,这将导致推荐结果与客户期望之间存在差距。基于规则的推荐使用基于信息属性或客户兴趣的规则,但是当面对大量规则时,特别是当某些规则发生冲突时,很难选出适当的规则并确保推荐质量。根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性,而后再基于这些关联性进行推荐。一般来说,传统的方法通常只注重某一方面,如客户的需求或客户的行为,并没有充分利用客户呈现的一些主体信息,特别是在线客户评论时的情绪因素。而在各类实践中,消费者对某一实体不同方面的偏好和情感极性在生成个性化推荐中将具有重要的学术研究价值。

此外,虽然协同过滤已成为学界常用的信息推荐方法之一,但却仍然存在一些问题。研究发现,协同过滤在计算客户相似度时总是使用客户的背景信息。背景信息通常是在客户注册过程中提供的。然而,由于其准确性和完整性有限,这些信息不足以支持生成有效推荐。为了收集更多有用的数据,在线网站试图收集互联网上客户的所有活动信息,不仅是采购记录,还包括搜索的短语和浏览的产品。然而,当网站建成历史较短时,关于这些活动的信息采集就很难达到设计预期。

通过整合客户偏好和情感转化为推荐的驱动,以在线客户评价来考虑推荐的方法来分析客户的情绪对其购买产品的影响。具体来说,这种方法是将光学字符识别的内容,以水平向量,从情感方面的特征词提取和分配进行极性评价每一份感情。此后,再利用特征词和情感极性评分计算顾客偏好和顾客相似性。通过这种分析,电子商务网站可以在一定程度上避免客户背景信息不足,解决冷启动和数据稀疏问题。此外,电子商务网站还可以出台高度灵活策略来向客户推荐更多相关信息,提高推荐算法的性能。

1基于情感评估的协同过滤

协同过滤技术在传统的推荐算法中得到了广泛的应用,其优势显而易见。然而,如前所述,协同过滤也存在一些问题,如冷启动和数据稀疏。为此,研究提出一种情感评估与协同过滤相结合的新方法,该方法优化了基于光学字符识别和研究致力解决的个性化推荐的准确度。

情感评价是对语境中的主观信息进行识别和提取,如观点和情感,针对协同推荐中的协同过滤问题,研究者拟将更加重视情感评价,产生意见挖掘和实体推荐。迄今为止,对不同文化背景和语言背景的顾客情感进行了广泛的研究,如汉语、英语和欧洲语言。

本文在回顾前人工作的基础上,提出了情感分析中经常论及的2个主要任务,即情绪极性和情感强度评价。首先,情感极性通常可视作一个分类过程,将在线客户评论的极性分类为正、负或中性。根据极性,研究人员可以直接显示顾客的偏好。在该项任务中,应突出表达评论,并着重显示相应的实体特性。其次,情感强度通常被认为是特征权重,因为具有相同极性的情绪可能反映不同程度的情绪强度。测量情绪強度可以推得顾客对实体的偏好。例如,这句话“电脑的图形真的酷”,表示一种强烈的积极情绪,而“这台电脑的图形是好的”表示部分积极的情绪。因此,有必要对极性和强度进行情感评估。

电子商务活动中寻找客户偏好具有重要性,相当多的研究工作始终立足于开发商业智能,其中包括客户偏好,为个别在线客户发送提供个性化的建议,然而,忽略了光学字符识别效应在解释客户偏好的原因以及分析客户偏好的影响因素中的作用,只有少数研究利用这些信息来处理产生建议,与本文的工作相比,层面的客户偏好被全面纳入。研究中将重点划定3个主要步骤:层面情感评价,客户偏好挖掘和个性化推荐。一方面,情感评价变换光学字符识别的结构化审查方面水平向量。另一方面,客户偏好挖掘使用向量从情感中提取层面特征词,并将极性分值分配给每个情感。最后,利用特征词和情感极性评分来衡量顾客偏好和顾客相似性。

2基于客户偏好和情感评估的协同过滤算法

基于偏好挖掘和情感评估的拟议推荐方法的研究设计由3个内容组成:层面情感评估、客户偏好挖掘、个性化推荐生成,整体研发结构如图1所示。其中,层面情感评价是客户偏好挖掘的基础,可将原始数据转换为结构化层面的数据,如价格、物流服务和硬件属性等;然后,客户偏好挖掘则综合考虑了顾客对各个层面特征的意见极性和强度。最后,利用层面上的极性和强度数据,应用增强的协同过滤过程生成推荐结果。对此,可展开研究论述如下。

2.1层面情感评价

层面情感评价的主要目的是将原始数据转换为结构化数据。层面情感评价可分解为如下3个步骤:预处理、识别与还原、情绪评估。预处理在设计上就是从原始数据中删除重复的评论,并对评审词进行分段,以获得一个精炼的数据集。然后,特征识别步骤从细化的数据集中提取特征词,特征约简步骤则将其转化到实体识别的方面。最后,情感评价步骤可求得评审中各方面的情感程度,构建了一个结构化的评审数据集。各部分研究工作可详见如下。

2.1.1预处理

预处理即是指处理重复的条目、缺失值和拼写错误的单词以及单词和短语。首先,重复评审(通常是在虚假评审或系统默认评审时发生)。其次,汉语词法分析系统对原评论分割成单词和短语,这意味着大多数名词、形容词、副词、程度副词和否定词都是作为结构化数据集来保存和形成的。此外,根据汉语的性质和习惯,只需指定每个复习的句型,以确保其意义是公正的。基本句型包括陈述句、感叹句和疑问句,可以通过复习的标点符号来识别。如果标点符号是“!”,模式设置为“感叹”;如果标点符号为“?”,模式设置为“询问”;其它设置为“语句”。具体地说,给定一个原始的在线客户评价数据集R=(r1,r2,…,r|R|),研究定义一个向量S存储数据预处理的在线客户评价数据集,S=(s1,s 2,…,sn)。对每个评审Si,可将其剖分为一些层面的观点,si=(o1,o2,…,on),例如,“计算机非常漂亮!然而,硬盘的大小对于商业用途来说实在是有限的。”可以进行如下的预处理:

O1=(计算机,非常漂亮,感叹)

O2=(大小,硬盘,有限,商业用途,声明)

2.1.2识别与还原

客户通常提供评级和回馈评论以评估实体,然而,不同的客户可能会使用不同的特征词来意指某一方面。例如,客户对个人电脑的评论可能会使用“计算机成本非常高”或“产品价格友好”来描述价格的具体方面。因此,为了识别此类方面级别的评论,可从预处理结果中提取前100个常用的层面词,再通过人工检查和总结这些方面来创建一个列表。

此外,上面创建的列表需要减少,因为可能会相当长。在此步骤中,删除初始方面列表,同时一并删除一些相似的方面用语,形成规范的方面列表。首先,每一个方面都有3~5个词作为种子词汇,这些种子可以根据实验运行模式产生一个良好的结果。然后,其它相关的特征词可以根据候选特征词f和a的种子之间的依赖关系来评定衡量,数学定义如下:

x2f,a=N×(AD-CB)2(A+C)×(B+D)×(A+B)×(C+D)(1)

其中,f表示发生的一个短句子种子词的频率(短句子之间用标点符号互相分隔的条款);B是频率f不同时出现在同一句的任何种子词;C是一个简短的句子,包括但不包括f;种子字频率是短句子不含f和任何一个种子词的频率。对一个具有高度依赖性的词进行聚类,以更新相应的种子词汇词典,用于在下一次迭代中搜索其它高度依赖的特征词。

2.1.3情感评估

情感评估的研发重点是识别情绪极性和强度以及每个客户评论的层面级别特征加权。针对这一问题,研究定义了向量s={(t1,ω1),(t2,ω2),…,(tn,ωn)},并且s∈S代表某客户的评论,ti是一个向量,代表一名特定客户方面的意见。首先,将情感极性和强度信息结合起来,用4个变量表示形容词的修饰语:形容词、程度副词、否定词和句型。例如,形容词、如“好”等,可以表达情感极性的趋势。程度副词、如“太”等,也会加重意见词的极性,对评论的情感倾向产生强烈的影响。汉语中有30多个常用的程度副词可以用来强调个人情感,因此,这些词是单独提取出来研究的。否定词可以颠倒意见词的极性,句型可以表达观点的语气。因此,准确估计这4个变量是测量情绪极性和极性强度的基础。每个基于方面的向量都可以规整为七元组向量,数学形式可表述为:

ti=(f,adj,advd,nadvd,sadvd,neg,p)

其中,f表示前文所述的层面级特征词;adj表示修改特征f的意见词;advd是程度副词的缩写;nadvd是程度副词的数量;sadvd是程度副词的平均得分;neg是否定变量,用0或1代表评价趋向;p是句型,可以通过使用标点符号标识客户评价内容。例如:“计算机非常漂亮!然而,硬盘的大小对于商业用途来说实在是有限的。”这种检查可以用向量做出如下表示:

(计算机,漂亮,很,1,4,0,感叹)

(硬盘,有限,真的,1,4,0,声明)

研究中,运用汉语词汇的属性关系和词句对程度副词进行分级,而关于每个层面的特征,同时又测量了程度副词的平均得分,并用得分来表示极性的强度。引入方面级特征加权ωi,以往的研究多是集中在特征词的词频测量意见权重,也就是研发得到的基于TF-IDF算法。然而一般情况下,情感并不是通过重复相同的特征词来宣泄表达的。在汉语语境中,客户倾向于使用程度副词来表达其评判意见。因此,本文提出了一种改进的TF-IDF算法,则是基于特征和程度副词来测量方面的水平特征的重要性。对于某个特定si中的每个特性fi,该算法可具体解析为如下公式:TFfi,si=nadvd(fi)×sadvd(fi)∑fnf1nadvd(fi)×sadvd(fi)(2)

IDFfi,si=log (NSNF+0.01)(3)

ωi=TF(fi,si)×IDF(fi,si)(4)其中,NS表示客户评价的总数,NF表示包含特征fi的客户评价数。

2.2客户偏好挖掘和个性化推荐

客户相似性是基于协同过滤的个性化推荐方法中的一个关键因素。在这一步中,将情感极性、情感强度和特征权重作为衡量客户偏好和计算客户相似性的依据。大多数传统的方法都关注客户或实体之间的共性,通常忽略了关于不同客户偏好的多样化信息。利用结构化向量水平来判定客户的相似性,并旨在提高个性化推荐的性能。在单个客户的决策过程中,由于顾客的不同看法和期望,各方面的权重不同。例如,高消费能力的顾客倾向于购买具有最佳配置的电子产品,而其它人在购买电子产品时可能更注重成本效率。因此,客户的购买行为在很大程度上取决于吸引其喜欢的重要方面。在这方面,通过层面的喜好,即客户的看法和期望,开发一种新的方法来衡量客户的相似性。

提出了一种客户偏好挖掘方法,根据客户评论中重要的程度,分析计算不同客户之间的相似性。假定向量s={(t1,ω1),(t2,ω2),…,(tn,ωn)}是客户对实体不同方面的意见的汇总,各方面在聚合中有着不同的贡献和极性,给定一个客户ui和方面fk,客户偏好可按如下公式进行计算,即:CPui, fk=∑ej∈eiSijsijk∑ej∈EiS2ij∑ej∈Eis2ijk(5)其中,sijk代表客户的意见,Ei为实体评论数据集。

协同过滤的概念是,一个单独的客户喜欢与其自身有相同偏好的其它人推荐的实体。因此,一个客户ui,具有较高的候选人评分实体ei将选作首席推荐。针对候选人的数学运算可推得如下公式:CSui, fk=i+∑un∈UNsin(ui,um)×(smk,m)∑un∈UNsin(ui,um)(6)3结束语

提出了一种增强的基于偏好挖掘和情感评价的协同过滤算法。这种方法的主要理论贡献是从在线客户评价的特征词提取方面的有效性,并将情感极性以更适合中国语境的程度副词进行描述,基于特征词和情感极性,计算得出客户偏好和客户相似度。此后的仿真实验表明,该方法优于传统的协同过滤,未来的研究将专业收集更多的数据,并进一步提高该模型的通用性和可伸缩性。

参考文献

[1] 张昊,纪宏超,张红宇. XGBoost算法在电子商务商品推荐中的应用[J]. 物联网技术,2017,7(2):102-104.

[2] 王许辉,吕肖飞. 电子商务个性化推薦系统模型介绍[J]. 信息与电脑(理论版),2017(10):85-89.

[3] 杨志平,徐骞,马铭. 基于中间商品兴趣度加权的内容推荐算法[J]. 北华大学学报(自然科学版),2017,18(6):831-834.

[4] 叶建龙. 基于Mahout的个性化电子商务推荐系统研究[J]. 信息通信,2017(10):129-130.

[5] 陈星星. 基于多最小支持度关联规则的电子商务推荐系统的研究与实现[D]. 广州:暨南大学,2017.

[6] 张光. 基于离群数据挖掘的电子商务推荐系统研究[J]. 自动化与仪器仪表,2017(8):21-22,25.

[7] 吴金李,张建明. 基于二分K-means的协同过滤推荐算法[J]. 软件导刊,2017,16(1):26-29.

[8] 余明艳,郁春兰. 农产品电子商务推荐系统设计与实现[J]. 经济研究导刊,2017(28):21-22.

[9] 战凯. 基于遗忘函数和项目流行度的推荐算法研究[D]. 银川:北方民族大学,2017.

[10]张航,叶东毅. 一种基于多正则化参数的矩阵分解推荐算法[J]. 计算机工程与应用,2017,53(3):74-79.

[11]王茜,王均波. 一种改进的协同过滤推荐算法[J]. 计算机科学,2010,37(6):226-228,243.

[12]文俊浩,袁培雷,曾骏,等. 基于标签主题的协同过滤推荐算法研究[J]. 计算机工程,2017,43(1):247-252,258.(上接第117页)

[2] 赵越,乔玉灯. 基于嵌入式的人脸识别考勤系统的研究[J]. 电子技术与软件工程,2015(17):211.

[3] 王威. 基于ARM9硬件平台的人脸识别系统设计与研究[D]. 成都:电子科技大学,2013.

[4] 储清翠. 复杂光照条件下人脸跟踪算法研究[D]. 合肥:安徽大学,2014.

[5] 王茜,肖国强,吴松,等. 基于LBP直方图的复杂光照下的人脸识别[J]. 计算机工程与应用,2012,48(15):181-186.

[6] 易焱,蒋加伏. 基于LBP和栈式自动编码器的人脸识别算法研究[J]. 计算机工程与应用,2018,54(12):163-167,245.

[7] 胡沐晗. 基于PCA和SVM的人脸识别系统[J]. 计算机时代,2017(12):60-63,67.

[8] 杨梅芳,石义龙. 基于2DPCA+PCA与SVM的人脸识别[J]. 信息技术,2018(2):32-36.

[12] EricA.Meyer. CSS权威指南[M]. 中国电力出版社, 2007.

[13]Sbelley Powers. JavaScript学习指南[M]. 人民邮电出版社.2009.

[14]Julie C.Meloni Michael Morrison. HTML与CSS入门经典[M]. 人民邮电出版社,2011.

[15]Elisabeth Freeman,Eric Freeman. 深入浅出html[M]. 中国电力出版社.2008.

[16]MATT RICHARDSON,SHAWN_WALLACE.爱上Raspberry Pi[M]. 科学出版社,2013.

客户 极性 文章