藏文问答系统中答案抽取方法的研究
   来源:中国科技博览     2021年03月31日 17:54

群毛措++安见才让

[摘 要]该文提出了藏文问答系统中答案抽取的方法,即采用了基于相同词汇的句子相似度算法和基于关键词的相似度算法,根据多次试验的准确率来确定,本文通过基于相同词汇的句子相似度算法和基于关键词的相似度算法相结合的算法来抽取最佳的答案。

[关键词]问题分类,关键字,相似度,答案抽取

中图分类号:D911.04 文献标识码:A 文章编号:1009-914X(2016)03-0249-01

1 引言

目前,国内外有很多相对成熟的英文问答系统和中文问答系统,但到目前为止还没有藏文问答系统方面的研究成果,所以查找或了解一些藏语文方面的内容很不方便,必须借助书本或咨询别人来完成,那样需要花费很多的时间和精力,因此很多的藏文学者都渴望有个藏文的搜索引擎或藏文问答系统,最近这方面的研究者也越来越多,但目前还没正式开通藏文搜索引擎或藏文问答系统,所以研究这方面的内容是很有必要的。

2 藏文问答系统

藏文问答系统主要由问题分析、信息检索和答案抽取3个模块组成。 藏文问题系统的主要模块以及每个模块的主要工作是:

2.1 问题分析模块

①藏文问句进行分词、词性标注。②问题进行分类。③进行句法分析。④关键词抽取。

2.2 信息检索模块

①文档库中查找与问题相关的信息。②得到候选答案。

2.3 答案抽取模块

① 与问题相关的大量信息进行处理。②计算句子相似度。③从候选答案中选取最佳的答案返回给用户。

3 藏文问答系统中答案抽取方法

3.1 关键词

藏语语言学中任何句子都是由关键成分(主、谓、宾)、修饰成分(定、状、补)和语法成分(格助词、虚词)构成。主语、谓语和宾语对句子起主导作用,定义、状语等成分对句子起辅助作用。因此,可以将一个句子中的所有名词、代词、动词和形容词作为关键词。

3.2 基于相同词汇的句子相似度计算

通过计算句子中出现的相同关键词的数量占两个问题中关键词数量的比值来计算相似度。

这种方法比较简单、直观,但它只是机械地统计相同词汇的比重,无法识别同义词,对同义词之间的替换能力产生了局限,当两句中出现大量同义词而表意相似时,该算法难以达到预期效果,需要进行更深层次的研究。

3.3 基于关键词的相似度计算

这种计算方法主要采用空间向量模型进行计算,只是对句子进行分词处理后,把句子看成词的线性序列,根据句子中的单词出现的频率等相关信息来计算句子的相似度。在向量空间模式中,把两个句子之间相互匹配的问题转化为向量空间中两个向量之间相互匹配的问题,两个句子的相似度可以用两个空间向量之间的夹角来衡量,夹角越小相似度越高。

我们把句子看成是由许多相互独立的单字所组成,两个句子进行分词和去除一些冗余信息后,得到S1和S2的关键词序列构成的向量空间分别为M1={,,….,}其中M1为句子S1和S2的关键词,

再为句子S1设定一个向量X={,,….,},其中代表关键词在句子S1中出现的次数,为句子S2设定一个向量Y={,,,…,},其中代表关键词在句子S2中出现的次数。

根据藏文句法结构和词汇的不同,有时候算法1的相似度比较高,有时候算法2的相似度比较合适,所以本文采用基于相同词汇的句子相似度计算和基于关键词的相似度计算相结合的算法来抽取最佳的答案。

3.4 基于相同词汇的句子相似度算法和基于关键词的相似度算法相结合的算法

本算法采取算法1的百分之三十和算法2的百分之七十。三种算法的结果比较如表1:

实验结果表明:三种测试的准确率和召回率相对比较低,原因是没有考虑到句子的语义信息,该系统还对解决实际问题还未考虑周全,有待进一步完善。虽然目前该系统还不够完善,但是已经为中小学藏语文问答系统中答案抽取的研究奠定了一定的理论基础,该方法完全可行。

4 结论

采用基于相同词汇的句子相似度算法和基于关键词的相似度算法相结合的算法,虽然能抽出答案,

但这种算法也不是最佳的,这种算法只利用了句子的表层信息,没有考虑到句子的语义信息,如果两个句子意思相同,但句子之间的同义词过多时,相似度依然不高。所以下一步的工作是继续扩大数据库,将语义知识融入到本算法中。

参考文献

[1] 安见才让 藏语句子相似度算法的研究,中文信息学报,2011,25(4):110-114.

[2] 刘震,肖文显.相似度算法下中文问答系统的设计与实现.河南科技学院学报.2012,40(5):86-88.

[3] 余正涛,攀孝忠,宋丽哲.汉语问答系统答案提取方法研究.计算机工程.2006,32(3):183-185.

文章 句子 算法