基于LDA模型和聚类算法的城市热点推荐与应用_互联网+_

情景模型秋 1944 南京市经典模型吧

王诗童刘美玲孙立研

文章编号： 2095-2163（2018）03-0136-04中图分类号：文献标志码： A

摘要：關键词： application of city hot sites

（College of Information and Computer Engineering， Northeast Forestry University， Harbin 150040， China）

Abstract： According to the functions of short text posting and sign-in to elicit the details post by the users. Cutting the vast short texts and geography positions to the phrases by LDA（Latent Dirichlet Allocation） Model， in order to count up the frequency of every phrase， and then obtain the hot geography positions， as well as label them on the map. With the Spatial Distance Clustering Algorithm， optimizing the recommendation function when the users offer their situations and restrict the searching conditions. And the system shows the details of some active sites， such as shopping malls， hot sites and restaurants to recommend to the users.

Key words：

基金项目：国家自然科学基金（61702091）；省自然科学基金（F2015037）；东北林业大学大学生创新训练计划项目（201610225196）。

作者简介：王诗童（1996-），女，本科生，主要研究方向：数据分析；刘美玲（1981-），女，博士，讲师，CFF高级会员，IEEE CS会员，ACM会员，主要研究方向：自然语言处理、数据挖掘、数据分析；孙立研（1994—），男，硕士研究生，主要研究方向：林业信息工程、空间数据挖掘。

通讯作者：收稿日期：引言

随着计算机技术的进步和Web2.0的日益完善，社交媒体在不断向前发展。在这其中，新浪微博是较为广泛应用和流行的社交媒体软件。与其他社交软件相比，新浪微博具有信息发布方式多，信息传播速度快，交互性强等特点。因此，利用新浪微博上用户发布的文本进行数据分析和挖掘亦可以获取大量潜在的且有价值的信息。

本文利用新浪微博开放平台获取的用户数据，采用LDA模型和多距离空间聚类算法，收集微博数据，挖掘出其中的地理位置信息和相应的用户评价，获取用户感兴趣的内容，在地图中形成定位点并标注，并向用户进行推荐。

1相关工作

1.1文本主题聚类的方法

基于文本主题的聚类，顾名思义，就是以文本为主题，即描述对象的标准，将数据聚集成不同的类[1]。Ivan Titov等[2]人提出一种情感总结的文本和方面评分的联合模型来挖掘文本中相关联的主题，提高情感分析结果的准确性和高效性。Chao Shen等[3]人提出基于参与者的事件提取方法zooms-in 来侦测和捕捉与参与者相关的突发性和连续性的重要子事件。刘振鹿等[4]人利用LDA模型对潜在语义进行分类，并分成高频区、中频区、低频区，再将高频和中频区语义进行聚类。李国等[5]利用基于加权的LDA模型挖掘到文本中潜在主题分布和不同主题中词语分布，结合K-Means 算法对文本进行聚类，比传统聚类算法得到更好的聚类效果。汪进祥[6]利用LDA模型从语义上挖掘微博话题，使用增量聚类方法发现话题个数，从而提高话题发现率。邢长征等[7]利用耦合空间LDA算法线性融合计算文本相似度，优化阈值敏感问题，使文本聚类精度更高。

1.2LDA模型的提出

LDA算法是一种3层贝叶斯概率主题模型。概率模型是通过对中文分词分布规律的观察，实现对相似分布规律词集的聚类[8]。3层贝叶斯模型的每一层次的一个项包含下一层次主题的集合，主题的下一层次包含的是词语的集合。pw|d=pw|t*pt|d（1）对于文档集合D，在公式（1）中，D中每个文档d均为一个单词序列。LDA以文档集合D作为输入，对每个D中的文档d，对应到不同topic（主题）集合T的概率θd< pt1，...， ptk>。对每个T中的topic t，生成不同单词的概率φt< pw1，…， pwm>，通过当前的θd和φt得出文档d中出现单词w的概率。其中p（t|d）利用θd计算得到，p（w|t）利用φt计算得到。

根据θd和φt，计算文档中的一个单词对应任意一个topic时的p（w|d），根据结果更新这个单词所对应的topic。若更新该单词对应的topic，就会反过来影响θd和φt。

1.3文本处理与中文分词

文本信息即文字信息、数字信息和符号信息的集合。本文中被处理的源数据是经过新浪微博开放平台获取的XML格式文件，即有格式文本。本文所处理的文本是文本信息，即为文本的主体信息。

词是“最小的能独立运用的语言单位”[9]。中文分词（Chinese Word Segmentation）是指将组成句子的汉字序列用分隔符加以区分，切分成一个个单独的词[10]。同时，在自然语言处理领域中，中文分词也是其中一种较为关键的基础技术，其性能的优劣对于中文信息处理尤为重要[11]。本文采用的中文分词算法是基于字典或词库匹配的分词算法，所采用的字典是“庖丁解牛”字典库。

1.4空间地理位置与多距离空间聚类

地理位置是用来描述地理事物时间和空间关系的物理量。由图1可知，按照地理位置的相對性和绝对性来划分，一般分为自然地理位置、相对地理位置和绝对地理位置等3种。在本文中，采用绝对地理位置描述所有坐标点，即利用空间位置坐标点的经纬度信息来确定某个地点在地图上的实际位置。

空间聚类有助于识别空间目标分布的密集和稀疏区域，进而发现全局空间的空间分布模式，以及空间目标间人们感兴趣的、潜在的相互关系[12]。本文应用的多距离空间聚类算法（The Spatial Distance Clustering Algorithm）主要是按照相似的测度或一定的测量距离在较大型的空间数据集中标记出聚类或是能体现稠密程度的区域。具体做法是在空间中选择n个对象作为类或簇的中心，对剩余的对象计算其到各个类中心的距离，并将其加入到离这个对象最近的一个类中，反复迭代计算各个类的平均值，并将其作为中心，直至目标函数收敛。

2文本及位置信息分词模型

2.1文本及位置信息分词模型应用

在LDA模型中，分析计算得到的结果是词频。词频可以被看作是微博的一项元数据特征，而微博具有多项元数据[13]。在获取微博短文本数据后，采用JGibbLDA v1.0对文本数据进行中文分词训练，利用基于字典或词库匹配的分词算法对每个单词进行匹配。训练后的文本如图2所示。

2.2实验分析与总结

采用LDA模型对获取到的用户所发文本信息及签到位置数据进行中文分词训练，得到了各个文本集分词后的结果及其词频。如图3所示，该中文分词模型能有效地将文本集进行分词训练，表明该结果集的词组包含微博用户签到的地理位置，文本内容，并将分词的词频计算出来，由此可以确定在下一节中地理位置的定位及其评价，从而向用户推荐周边娱乐活动。

3基于地图的位置定位与搜索

3.1基于地图的定位与标注

在新浪微博上获取的用户签到的地理位置信息，其信息包括地址、经纬度、地址信息描述等。在实际地图上标注时采用百度地图开放平台进行操作。本文利用API中的批量地址解析功能，将信息中经纬度的具体数值转换成具体地址，并将其和描述（title）添加到示例地图中，形成可视点。如图4所示，根据中心定位位置，在地图上显示周边一定区域内的热点位置及商家名称信息。

3.2基于位置的搜索功能

基于位置的搜索服务是基于地理位置服务中很重要的一类服务，这种服务将搜索引擎和地理信息系统相结合，为用户提供想搜索场所的具体信息[14]。在从微博短文本中获取地理位置数据并将其标注在地图中后，会将其展示给用户。具体做法是，由用户填入筛选条件，如城市、区域、热点位置等后，提交表单进行搜索，由系统给出推荐方案，按照用户提供的定位信息或需求，给出一定距离内的周边区域中商场、景点、饭店等娱乐场所的推荐。用户可以点击地图中具体的标注点来检视商家的详细信息。

3.3多距离空间聚类算法的应用

本文应用多距离空间聚类算法实现热点位置的推荐，在输入示例地点后搜索得到的商家位置结果集呈现无明显特征的分布，即没有集中在某个区块供用户来选择。除此之外，在测试样例中，搜索得到的结果并显示在地图上的时间很慢，存在信息过载的问题，降低了用户体验。为了解决上述问题，可以将搜索的结果确定在一定范围内，实现效率更高的检索，这样就可避免出现不切合实际的推荐结果，且能够减少计算量，从而缩短系统的响应时间[15]。因此，提出一种改进的空间聚类算法来优化现有的搜索算法，提高搜索结果的准确率和效率。

聚类算法的思路繁杂，可以通过划分、层次、模型、密度等方法进行探索[16]。基于划分的空间聚类算法有K-means、K-medoids、ClARANS等算法。在本实验中，由于要预先确定用户的位置，即聚类的中心，再向聚类中心的周围进行辐射，获取热点位置的推荐，恰好符合基于划分的空间聚类的思想。因此，实验采用K-means算法完成空间聚类，对已有算法进行改进和优化。K（r）=A∑ni-1∑nj-1w（i，j）πn（n-1），i≠j（2）式中，r为期望半径；A为整个研究区域的面积；w（i，j）表示权重，可理解为在指定区域内的实体间的聚集系数；n为区域内所有实体点的总个数。K（r）=ρ-1E（3）式中，ρ表示一个给定的区域密度，E表示挑选的事件，实验中挑选的事件为周边推荐。在区域密度ρ一定的情况下，K（r）值越大，该事件越大，说明该点的聚集程度越大。

4实验分析与结果

4.1整体开发框架

平台功能框架如图5所示。其中包括：数据文件上传模块、数据分析模块、地图显示模块和用户推荐平台模块。

4.2基于K-means算法对搜索功能的优化

在确定最优聚集效果时，考虑的是函数自变量，即最佳区域半径r，根据经验，先选取若干个半径值作为候选值，再逐一测试，得出最优聚集效果，便可得到优化后的空间聚类结果集。实验中分别输入1 km、0.7 km、0.5 km、0.3 km进行计算，结果如图6所示。

由图6可以看出，在以经纬度（126.623 839，45.779 025）为中心坐标点进行计算时，若半径r过大，包含过多无效区域和远距离推荐，得不到周边区域热点位置的推荐的初衷，若半径r过小，则造成疏漏大量有价值的坐标点。因此，认为当r近似等于0.5 km时，空间中所有实体点聚类关系较密切，聚集程度较高，契合度较好。

5结束语

本文以基于地理位置的热点推荐为研究目标，以地理位置信息为基础，实现了城市热点推荐的平台开发。利用新浪微博开发API接口获取的用户数据，结合开源的LDA模型进行中文分词，并进行词频统计处理，将地理位置信息和空间相结合，进而转换成在地图上参考的可视化实体。实现了向用户推荐周边热点地理位置的功能。优势在于结合多距离空间聚类算法检验某一区域内结果集的聚集程度，计算出最优的空间聚集距离，优化搜索功能，提高了搜索的速度，增大了查询的精确度。

利用互联网中社交媒体的数据信息进行文本信息处理，具有重要的意义。随着当今“互联网+”的发展，对于互联网的数据分析和挖掘这一领域有着巨大的价值和前景，利用互联网的海量数据进行分析、挖掘和创新，可以研究出更多更有意义的应用，实现对数据更大的价值体现。参考文献

[1] 张梦笑. 基于LDA模型的观点聚类研究[D].山西大学，2012.

[2] Ivan T， Mcdonald R. A joint model of text and aspect ratings for sentiment summarization[J]. PROC. ACL-08： HLT， 2008：308--316.

[3] Shen C，Liu F，Weng F， et al. A Participant-based Approach for Event Summarization Using Twitter Streams[C].//HLT-NACCL，2013：1152-1162.

[4] 刘振鹿，王大玲，冯时，等. 一种基于LDA的潜在语义区划分及Web文档聚类算法[J]. 中文信息学报，2011，25（1）：60-65，70.

[5] 李国，张春杰，张志远. 一种基于加权LDA模型的文本聚类方法[J]. 中国民航大学学报，2016，34（2）：46-51.

[6] 汪进祥. 基于主题模型的微博话题挖掘[D]. 北京邮电大学，2015.

[7] 邢长征，赵全颖，王伟，等. 基于优化密度的耦合空间LDA文本聚类算法研究[J]. 计算机应用研究，2017，34（7）：1966-1970.

[8] 张培晶，宋蕾. 基于LDA的微博文本主题建模方法研究述评[J]. 图书情报工作，2012，56（24）：120-126.

[9] 汉语信息处理词汇01部分：基本术语（GB12200.1-90）6[S]. 中国标准出版社，1991.

[10]韩冬煦，常宝宝. 中文分词模型的领域适应性方法[J]. 计算机学报，2015，38（2）：272-281.

[11] 斯惟，徐立恒，陈玉博，等. 基于表示学习的中文分词算法探索[J]. 中文信息学报，2013，27（5）：8-14.