基于分布式结构的图书馆信息检索服务系统研究
   来源:现代电子技术     2021年02月01日 13:16

谷参

摘 要: 针对目前普遍采用的基于单式中心服务的信息检索搜索时间长、不准确等缺点,结合数据挖掘、数据库管理等技术,在B/S模式和C/S模式的基础上开发基于P2P平台的分布式结构数字图书馆信息检索系统,完善和优化了图书館信息检索的功能,实现了高效、实用、方便、快捷的图书馆信息服务,为用户提供了更好的图书馆服务体验。

关键词: 分布式结构; 数字图书馆; B/S模式; C/S模式; P2P; 信息检索服务

中图分类号: TN911?34 文献标识码: A 文章编号: 1004?373X(2017)01?0083?03

Abstract: Since the commonly?used information retrieval system based on simplex center service has the shortages of long time and low accuracy for information retrieval search, in combination the technologies of data mining and database management, the distributed digital library information retrieval system based on P2P platform was developed on the basis of B/S mode and C/S mode. The system improved and optimized the library information retrieval function, realized the efficient, practical, convenient and quick library information service, and provides a better library service experience for users.

Keywords: distributed structure; digital library; B/S mode; C/S mode; P2P; information retrieval service

0 引 言

在当今信息技术快速发展的环境下,图书馆已经由传统的人工纸质化状态进入数字信息时代,传统的信息检索系统已经不能满足人们对图书馆的服务要求,对信息的搜索效率已经成为衡量数字化图书馆先进与否的关键因素。信息检索中最早出现的是集中搜索模式[1],它由一个服务中心集中收集处理信息并将信息反馈给各个子搜索中心。这种单一的搜索系统容易出现交通阻塞、信息滞后继而出现系统崩盘等隐患,稳定性和安全性极低[1]。分布式搜索模式的出现克服了以上缺点,图书馆的信息检索系统利用分布式信息搜索模式实现了图书信息检索的高效智能化。

2004年,第一个基于P2P架构的数字图书馆系统在英国的兰开斯特大学由Walkerdine等人设置完成[1];2004年Haase等联合开发了Bibster系统;2005年美国麻省理工学院的Jcremy等设计并开发了一种基于DHT的分布式合作数字图书馆系统OverCite[1];Hao Ding在数字图书馆环境中基于P2P结构创建了数据搜索模型算法[2];德国马克斯·普朗克信息学研究所的Matthias Bender等人首次将信息检索技术与P2P技术结合实现了对数字图书馆信息的检索功能,以上对数字图书馆搜索系统的设置都有一定的进步与改善,但也存在着扩展性差、搜索拥堵、运行维护成本高等缺点。通过对历史背景的研究及现状的评估,本文提出基于P2P技术的分布式图书馆信息检索系统,此系统避免了传统的单一搜索模式的弊端,在服务器端与客户端分别设置B/S模式和C/S模式[3],形成了分布式检索形式,在此基础上,将P2P技术加入分布式搜索模式中进行算法优化与改进,使图书馆信息检索能力大大提高,对图书馆信息智能化的发展具有重大意义。

1 P2P搜索技术

1.1 P2P搜索算法

计算机对等(Peer?to?Peer,P2P)[1]技术是当今信息网络的一种热门研究技术,主要对网络信息资源进行研究。P2P搜索算法可分为结构化搜索和非结构化搜索[4],如图1所示。结构化算法是指点对点的网络搜索,网络结构中的每个点都有确定的ID,因此在进行搜索任务时要将关键信息从头到尾逐一查询,造成搜索重复冗余、网络结构庞大刻板;非结构化的网络布局中每个网点分布随机在需要时及时加入结构,网点的位置和数目随着搜索任务的变化而变化,在进行搜索时,指针有策略地对网点进行搜索,同时及时更改搜索路线即算法,因此,非结构化的P2P搜索模式相对灵活简单,但是容易出现搜索不完全、陷入死循环等[5]。

1.2 P2P搜索模式

P2P搜索模式分为中央索引模式[1]和分布式索引模式。中央索引模式如图2所示,在进行信息检索时子端信息只能传输到中央网点,再由中央网点进行下一级信息传递,这样的传输模式共享性差,资源利用率低;分布式索引模式如图3所示,其中没有中央服务器,每个网点具有相同的功能与职责,他们之间可以自由进行信息传输(只要线路存在),当某个网点进行搜索时会向周边网点传递信息,周边网点会将此信息向外扩张,直到完成信息的整个检索[6]。分布式索引避开了集中索引模式的许多弊端,使整个系统灵活快捷,但是这种模式占用太多内存,容易出现拥堵状况,因此可以将集中式与分布式结合实现混合P2P搜索模式。

2 基于P2P的数字图书馆分布式搜索系统分析

如今,人们处于多元化社会,出现了诸多一词多义、模糊词语、一语多关的现象,传统基于集中式的搜索模式已经不能满足人们搜索目标的要求,因此引入P2P分布式搜索模式系统[7],在原有基础上,进一步将语义进行肢解与关联,达到准确快速搜索的目的。

2.1 分布式搜索系统结构模型及关系

基于P2P的数字图书馆分布式搜索系统结构模型分为分层搜索节点模式和数据资源模式,此结构模式首先对信息进行查询服务,对用户输入信息进行判断,如果信息符合验证将进行查询解析,同时相对应的数据资源将对信息进行注册验证查询[8],然后在数据资源库中进行搜索,最后将搜索结果进行传输,呈现在用户查询结果页面,结构模型示意图如图4所示,服务器之间的关系如图5所示。

2.2 文件共享与分布式搜索流程

文件共享[1]是指根据用户提供的信息,在网路节点之间进行信息交流与传递,对文件进行详细解剖,根据文件的具体内容与特征分配不同的网点进行处理与承接反馈[9];文件搜索与文件共享类似,首先由用户输入信息发出搜索请求,请求的指令传输到网络拓扑结构中,由具体网点进行接收,然后判断处理搜索内容,对内容进行解析,进入下一环节。图6,图7分别为信息共享流程图和分布式搜索流程图。

3 B/S模式和C/S模式和数据库分析

服务器的B/S模式可以完成对查询信息的访问,主要是完成浏览器与服务器之间的连接;C/S模式可以完成对输入信息的访问,主要是完成客户端与服务器的连接。B/S模式和C/S模式的采用可以合理分工信息流传处理过程,使要查询的检索信息按照预定的通道传输,不会出现差错与混乱[10],采用B/S模式,可以将要查询的信息通过服务器完成,只需要将用户输入的信息加载到浏览器的系统中就能实现搜索功能,大大减轻了服务器的负荷;采用C/S模式可以将服务器要完成的任务交于客户端进行,减轻了服务器的拥堵状况,使整个道路畅通。系统总体模型图如图8所示。

来自客户端和服务端的数据需要经过数据库进行收集整合,数据库一方面从服务器端获取数据,一方面从客户端获取客户录入的数据,将双方数据进行资格认证,将查询内容准确无误地传输给用户[11],数据流程图如图9所示。

4 结 论

基于集中搜索模式的圖书馆搜索系统已经不能适应当今时代的需求,分布式搜索模式能够有效地解决集中式系统搜索效率低、内存占用大、系统易崩溃等缺点,为图书馆搜索服务提供更好的技术支持。本文提出的基于分布式的搜索系统加入了P2P技术,解决的问题主要体现在:

(1) 本文在图书馆数据库管理系统中加入B/S模式和C/S模式,使得信息查询和结果反馈流程规范简化,减轻了服务器与客户端的负荷,使得信息在客户端输入时不会产生信息阻塞,这样输入的信息不会对后续搜索产生影响,在服务器端将要搜索的信息直接传递给浏览器,不仅使服务器的负荷减轻还使得信息搜索更加广泛,搜索的结果更加多样化,结果更加准确。

(2) 本文在分布式的搜索系统中加入了P2P技术,详细分析了P2P的搜索结构模式和搜索流程,P2P使得分布式搜索模式更加有效,降低了分布式搜索模式的搜索风险,通过对关键词和特征词的具体剖析,提高了搜索的准确率,适应了当代词义的变化,给用户提供更多的选择。

(3) 采用混合P2P模式,成功地避免了单一搜索模式的诸多弊端,改善了搜索查询机制性能,使得搜索模式具有更大的扩展性,搜索更加全面高效。在加入P2P的搜索模式中,搜索语言更加多元化,算法得到了改进,与数据挖掘等技术可以有效结合。能够形成更强大的搜搜引擎。

参考文献

[1] 马率广.基于P2P的数字图书馆分布式搜索引擎研究[D].秦皇岛:燕山大学,2007.

[2] 王哲.数据挖掘技术在高校图书馆个性化服务中的应用研究[D].重庆:重庆大学,2012.

[3] 谭鑫鑫.分布式图书馆信息检索与引导服务系统[D].长沙:湖南大学,2012.

[4] 秦健.基于信息可视化与数据挖掘的高校图书馆推荐系统的设计与实现[D].北京:北京交通大学,2014.

[5] 赵捧未,马亭,窦永香.基于P2P和Web Service的数字图书馆资源共享框架研究[J].信息资源管理学报,2011(2):55?58.

[6] 张丽君.图书馆信息资源知识管理模式构建[J].图书与情报,2010(6):134?136.

[7] 蔡学森.基于B/S的学生成绩管理系统[D].长春:吉林大学,2008.

[8] 沈济南,梁芳.基于C/S与B/S混合模式的学生成绩管理系统设计与实现[J].牡丹江师范学院学报(自然科学版),2006(4):18?19.

[9] 张瑶,陈维斌,傅顺开.基于大数据的高校图书馆推荐系统仿真研究[J].计算机工程与设计,2013(7):2533?2541.

[10] 张路路.基于数据挖掘的高校图书馆藏推荐系统模型研究[D].淄博:山东理工大学,2012.

[11] 王斌.数据挖掘在高校图书馆服务中的应用研究[D].西安:西安理工大学,2010.

模式 文章 分布式