大数据环境下的文本信息挖掘方法_新闻_

大数据环境下如何进行数据挖掘大数据环境数据挖掘

彭梅

摘要：文本信息挖掘有利于提高文本信息的查找和利用效率，针对传统方法存在的问题，提出文本信息挖掘方法。首先提取文本信息术语，估计信息内容与文本类别间的余弦距离，结合模糊规则推理和余弦距离得到隶属度，然后根据均值密度的中心估计方法得到文本数据集合的平均密度，确定文本信息聚类中心，删除远离文本信息聚类中心的奇异数据点，实现大数据环境下文本信息挖掘。实验结果表明，该方法能够有效提高文本信息挖掘的查准率，而且具有较强的可扩展性。

关键词：大数据；文本信息；信息挖掘；查准率

中图分类号： TN911.1?34； TP391 文献标识码： A 文章编号： 1004?373X（2017）23?0123?04

Abstract： The text information mining is helpful to improve the efficiency of text information retrieval and utilization. Aiming at the problems existing in the traditional methods， a text information mining method is proposed. The term of text information is extracted to estimate the information content and the cosine distance between test categories. The fuzzy rules reasoning and cosine distance are combined to obtain the membership. And then the central estimation method based on mean value density is used to get the average density of the text dataset， determine the clustering center of text information， delete the singularity data point far away from the clustering center of text information， and realize the text information mining in big data environment. The experimental results show this method can improve the precision ratio of text information mining effectively， and has strong scalability.

Keywords： big data； text information； information mining； precision ratio

0 引言

在当今社会中人们获取外界信息的渠道更加丰富且获取方式更加简单，使得人们每天需要浏览以及面对大量的各色信息[1?2]。因此，需要对用户进行文本信息的筛选，挖掘出用戶真正感兴趣的文本信息。

现阶段的文本信息挖掘技术不能根据用户查询目的有效地对查询内容进行扩展，且没有考虑用户的兴趣爱好以及用户的技术层次等差别，不能为用户提供具有个性化需求的动态服务。导致文本信息挖掘对知识理解能力和处理能力较差的问题，致使文本信息挖掘的精度不高以及文本信息过载和淹没[3?4]。在这种情况下，如何有效、快速地从海量信息中挖掘出用户真正需要的信息，成为业内人士亟需解决的重要技术难题，受到许多有关专家学者的高度关注[5?6]。文献[7]提出基于用户兴趣的大数据环境下文本信息挖掘方法，该方法挖掘能力的准确性较高，但存在计算过程消耗时间较长的问题。文献[8]提出基于句法规则的文本信息挖掘方法，该方法计算过程较为简单，但存在文本信息挖掘过程受控于核函数选择的问题。文献[9]提出基于决策树的大数据环境下文本信息挖掘方法。该方法可以从侧面了解用户感兴趣的文本信息，但存在挖掘能力局限性较大的问题[10?11]。

针对上述问题，本文提出文本信息挖掘方法，结果表明，该方法能够有效提高文本信息挖掘的查准率，同时具有较强的可扩展性。

1 大数据环境下的文本信息挖掘方法

2 实验结果与分析

为了证明提出大数据环境下文本信息挖掘方法的有效性，在Eclipse Standard 4.3.2下搭建大数据环境下文本信息挖掘实验平台，实验数据来源于UCI语料集。分别利用模糊规则方法和支持向量机方法进行大数据环境下文本信息挖掘实验。将两种不同方法进行大数据环境下文本信息挖掘的精确度对比，采用查准率[P]（%）作为度量不同方法下文本信息挖掘精度的结果：

通过对表1进行分析可知，利用模糊规则方法进行大数据环境下文本信息挖掘的查准率要高于支持向量机方法，这主要是因为在利用模糊规则方法进行大数据环境下文本信息挖掘过程中，先对文本信息进行术语提取，计算出新的文本信息内容与文本类别之间的余弦距离，结合模糊规则推理和余弦距离对文本信息进行分类，得到文本信息的数据样本与原型之间的隶属度。再根据均值密度的中心估计方法计算出文本信息原始数据集合的平均密度，在此基础上通过对文本信息聚类中心的确定，对文本信息中原始数据集合中远离聚类中心周围的稀疏数据的奇异点进行删除，使得利用模糊规则方法进行大数据环境下文本信息挖掘的挖掘精度较高。

分别利用模糊规则方法和支持向量机方法进行大数据环境下文本信息挖掘实验。对比两种不同方法进行文本信息挖掘的召回率（%），召回率是指自动挖掘与用户搜索相一致的文本信息占用户搜索信息总数的比率，体现了文本信息挖掘结果的完备性。利用对比结果来比较两种不同方法进行大数据环境下文本信息挖掘的召回率：endprint

通过对表2进行分析可知，利用模糊规则方法进行大数据环境下文本信息挖掘的召回率要高于支持向量机方法，这主要是因为在利用模糊规则方法进行大数据环境下文本信息挖掘过程中，先结合数据空间中距离累积函数计算出大数据环境下文本信息的潜力，再利用余弦距离公式计算出不同文本信息样本拥有不同数量的属性，在此基础上通过计算文本信息数据聚类中心，结合布尔加权法对文本信息的挖掘方法进行定义，得到词语在文本信息中的加权，使得利用模糊规则方法进行大数据环境下文本信息挖掘的召回率较高。

利用对比结果来衡量不同方法进行大数据环境下文本信息挖掘的综合有效性，对比结果如图1所示。

通过对图1进行分析可知，利用模糊规则方法进行大数据环境下文本信息挖掘的综合性能要高于支持向量机方法，这主要是因为在利用模糊规则方法进行大数据环境下文本信息挖掘过程中，先对文本信息潜力进行递归，创建出文本信息的新原型，得到文本信息的数据样本与原型之间的隶属度，在此基础上通过计算没有被存储的所有文本信息的分散性，得到以文本信息中所有数据点为中心的密度集合，再通过计算文本信息原始数据集合的平均密度，对文本信息中原始数据集合中远离聚类中心周围的稀疏数据的奇异点进行删除，使得利用模糊规则方法进行大数据环境下文本信息挖掘的综合性能较优。

3 结语

针对当前方法進行文本信息挖掘过程中难以对文本信息中奇异点进行删除，存在文本信息分类特征的准确性较差，聚类中心迭代初值的选择较为随机的问题，提出一种基于模糊规则的大数据环境下文本信息挖掘方法。实验结果表明，所提方法能够有效提高文本信息挖掘的查准率，同时具有较强的可扩展性。

参考文献

[1] 潘大胜，陈志福，覃焕昌.基于模糊关联迭代分区的挖掘优化方法研究[J].科学技术与工程，2016，16（24）：235?238.

[2] 陈晖.旋转机械振动故障相似性系数的优化挖掘方法[J].科技通报，2016，32（4）：126?129.

[3] 李尚昊，朝乐门.文本挖掘在中文信息分析中的应用研究述评[J].情报科学，2016， 34（8）：153?159.

[4] 胡海斌.引入特征倾向性的高效网络文本数据挖掘[J].计算机仿真，2015，32（5）：436?440.

[5] 朱贺军，马丁.海量短文本实时挖掘方法的研究与仿真[J].计算机仿真，2015，32（12）：442?446.

[6] 张世玉，王伟，于跃，等.基于文本挖掘技术的技术层面专利组合分析方法优化[J].情报理论与实践，2015，38（10）：127?129.

[7] 任高举，白亚男.多媒体智能教学中特定数据挖掘方法研究[J].电子设计工程，2016，24（11）：4?7.

[8] 邱剑，王慧芳，应高亮，等.文本信息挖掘技术及其在断路器全寿命状态评价中的应用[J].电力自动化，2016，40（6）：107?112.

[9] 韩文智.计算机文本信息挖掘技术在网络安全中的应用[J].华侨大学学报（自然科学版），2016，37（1）：67?70.

[10] 史玉珍，单冬红.基于子主题选择与三级分层结构的Web文本挖掘方法[J].电信科学，2016，32（5）：96?104.

[11] 温浩，温有奎，王民.基于模式识别的文本知识点深度挖掘方法[J].计算机科学，2016，43（3）：279?284.endprint