基于聚类的Web日志挖掘_新闻_

[摘要]本文采用K-均值聚类算法对Web日志进行挖掘，并将Web日志挖掘的知识用于网页推荐。在网页推荐环节，我们采用了打分函数，这个函数充分考虑了各种因素对用户访问的影响。

[关键词]K- means算法 Web日志挖掘网页推荐打分函数

中图分类号：TM121.1.3 文献标识码：B 文章编号：1009-914X（2016）01-0067-02

1.引言

随着全球经济一体化的发展，市场营销策略已愈来愈强调面向市场的方式，企业想要在竞争中取得优势地位，重要的是按照不同用户群体的特定需要，提供全面的服务，精确满足各个消费群体的不同需求。Web聚类挖掘正是因为能够实现这一目标而成为当前发展电子商务的一个重要课题。

2.Web日志上的聚类挖掘

2.1Web日志聚类的分类

Web日志上的聚类有两种：用户聚类和页面聚类。用户聚类是对用户的会话进行分析。通过聚类分析的方法，将访问模式相同的用户聚在一起，将访问模式不同的用户区分开。页面聚类是对被用户访问的页面情况进行分析，根据用户访问内容，发现被相同用户访问的页面，并将其归为一组。

2.2会话以及会话矩阵的表示

这里采用向量的方式来表示会话，为了表示一个会话向量需要对网站中的所有网页进行编码，从而将网页用对应的编码来代替。设会话向量V=（U1，U2，U3……Un），其中Ui的值是对编号为i的网页进行访问的次数，如果编号为i的网页没有被浏览，Ui=0。有了会话向量，就可以将日志中所有的会话用向量的方式表示出来，然后就可以得到会话矩阵。

2.3会话的相似度量方法

2.3.1会话间的相似度

这里用夹角余弦法来定义两个会话i，j之间的相似度S（i，j），设会话i的会话Vi=（mi1，mi2， mi3……min），会话j的会话向量为Vj=（mj1，mj2， mj3……mjn），那么

设相似矩阵为R=（rij）s*s，rij用来代替会话i和j的相似度：

2.3.2相似度矩阵

相似度矩阵：对于矩阵R，，其中rij=S（i，j），即会话i和j的相似度。矩阵R为会话集合的相似度矩阵。

3.Web日志上的聚类分析算法

3.1K-均值聚类算法

我们选择聚类算法中的K-均值聚类算法（k-means algorithm）来进行Web上的用户聚类和网页聚类，K-均值聚类算法是无监督分类中的一种基本方法，其也称为C-均值算法，其基本思想是：通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。该算法必须在开始输入一个K值，作为该算法在数据集上分割并计算后输出聚类的数量。

算法的开始是随机的从聚类对象集合中取K个对象，最为最初的聚类中心，然后算法开始循环迭代，对每一个输入的对象向量计算它与K个聚类中心的距离，找到距离对象最近的聚类，并将其归为该聚类。重新计算聚类的中心，然后依次迭代，知道聚类的成员不再变化，或者用来衡量聚类质量的目标函数不存在明显的变化，即变化小于一个可以认可的值。

4. Web日志聚类结果的应用

Web日志聚类结果最直接的用途就是网页推荐。网页推荐的过程，首先要提取用户的访问模式，然后对网站中的各个网页进行打分，按照得分的高低来排序，最后将得分较高的若干网页推荐出去。网页推荐最重要的一个环节就是对打分函数的设计，即依据什么样的函数来对网页进行打分。在定义打分函数之前我们先定义以下几个概念：

会话片段向量：对于一个当前还结束的会话，构造一个向量ui=（u1，u2， u3……un），其中n是经过了预处理后网页的总数目，ui的值是该会话对编号为i的网页的访问次数，我们称向量u为一个会话片段向量。

网页访问向量：p=（p1，p2， p3……pn），其中n是经过了预处理后会话的总数目。pi是编号为i的会话对网页p的访问次数。

聚类支持度函数：S_cluster（u，p）=Projp（maxc（u，ci）），其中ci是对会话的聚类分析后聚类中编号为i的聚类簇的中心。maxc（u，ci）函数的值是同会话片段向量u相似度最大的中心向量。

聚类支持函数是从用户聚类的角度来考虑预期的推荐网页，即用当前的会话片段向量距离最近的聚类中心的属性来考虑对网页p的支持程度。

点击率：

其中Ci是经过预处理后，用户对编号为i的网页的总访问次数。Cp是经过预处理后，用户对网页p的总访问次数。点击率函数参照了网页p原来被访问的数据，从概率的角度来考虑网页p被再次访问的可能性。

打分函数： f（p，pl，u）=S_cluster（u，p）×S_click（p）×sim（p，pl）

其中pl是会话u最近访问的页面。p是当前需要打分的页面。sim（p，pl）是网页p和网页pl的相似度。

有了打分函数，就可以对一个具体的用户推荐网页。对于一个当前需要推荐网页的用户，首先提取他的访问会话片段向量u。然后，从数据库中得到会话聚类分析的结果，计算出距离当前用户最近那一个聚类簇C，计算C的聚类中心，根据日志中的时间属性，找到会话中的最后访问网页pl。假定网页pl所属的网页聚类为K，对于推荐网页集合中每一个网页根据打分函数的定义，计算它的得分，最后按照得分的高低对所有打分后的网页进行排序，将排序在前面的网页推荐给用户U。

5.总结

本文采用K-均值聚类算法对Web日志中的用户和页面进行聚类，并将聚类结果用户网页推荐。在网页推荐过程我们运用打分函数对网页进行排序，把分数的较高的网页推荐给网页，这样更能满足用户的需要。

参考文献

[1] 陈安，陈宁，周龙骧.数据挖掘技术及应用.北京：科学出版社.2006.3

[2] 康晓东.基于数据仓库的数据挖掘技术.北京：机械工业出版社.2004

[3] 王春霞.基于Web日志的挖掘研究[D].郑州大学.2003

[4] 范明.聚类算法在Web挖掘中的应用[D].西北工业大学.2007

[5] 付国瑜. 基于Web日志的数据挖掘研究[D].重庆大学.2007

作者简介：

令狐红英（1982—— ），女，贵州师范学院教师，讲师，主要研究方向为数据库技术与软件工程。