一种行业领域词库标识树的正确性检测算法研究Research on correctness detection algorithm for thesaurus identification tree in profession domain
张志强,王伟钧,杨晋浩,周晓清,郑加林
摘要(Abstract):
在知识挖掘应用中,行业领域数据识别是知识挖掘的重要过程。对大量的行业领域数据进行数据识别需要借助领域词库标识树来完成,而影响数据识别准确率的重要因素是领域词库标识树构建的正确性。领域词库数据量一般很大,以其构建的领域词库标识树结构复杂,在复杂结构的标识树中通过已有的检测方法判断其正确性往往很困难。为了解决这个问题,提出一种词库标识树的正确性检测算法。该算法通过构建词库特征向量空间矩阵,计算树节点的相关性系数来自动检测树节点构建的正确性,同时可以根据判定阈值来确定正确性判定范围。实验结果表明,无论树结构如何复杂,该算法都能高效准确地实现标识树的正确性检测和发现错误。
关键词(KeyWords): 词库标识树;正确性检测;特征向量空间矩阵;相关性系数;知识挖掘;数据识别
基金项目(Foundation): 四川省教育厅理科项目(15ZB0390);; 成都市科技局项目(2015-RK00-00201-ZF;2015-RK00-00202-ZF)~~
作者(Author): 张志强,王伟钧,杨晋浩,周晓清,郑加林
DOI: 10.16652/j.issn.1004-373x.2018.18.020
参考文献(References):
- [1]王东波,朱丹浩.面向汉语句法功能分布知识库的词汇类别知识挖掘研究[J].现代图书情报技术,2013,29(3):33-37.WANG Dongbo,ZHU Danhao.Research of mining the word category knowledge for Chinese syntactic function distribution knowledge base[J].New technology of library and information service,2013,29(3):33-37.
- [2]陈晓宁.一种基于词汇树结构的图像检索方法研究[J].电子世界,2013(9):172-173.CHEN Xiaoning.A method of image retrieval based on lexical tree structure[J].Electronics world,2013(9):172-173.
- [3]钟将,刘杰.一种基于文本分类的知识树自动构建方法[J].计算机应用研究,2010,27(2):475-478.ZHONG Jiang,LIU Jie.Automatic construction of knowledge tree based on text clustering[J].Application research of computers,2010,27(2):475-478.
- [4]张明杰,张跃,姚天顺.一种基于词汇功能描述的树库构建方法[J].东北大学学报(自然科学版),2000,21(3):263-265.ZHANG Mingjie,ZHANG Yue,YAO Tianshun.Constructing tree-bank based on lexical functional description[J].Journal of Northeastern University(Natural science),2000,21(3):263-265.
- [5]王东波,朱丹浩,谢靖.面向汉语自动句法分析的语法知识库构建[J].现代图书情报技术,2011,27(4):42-47.WANG Dongbo,ZHU Danhao,XIE Jing.Constructing the grammar knowledge database orienting Chinese automatic sentence analysis[J].New technology of library and information service,2011,27(4):42-47.
- [6]邓一贵,伍玉英.基于文本内容的敏感词决策树信息过滤算法[J].计算机工程,2014,40(9):300-304.DENG Yigui,WU Yuying.Information filtering algorithm of text content-based sensitive words decision tree[J].Computer engineering,2014,40(9):300-304.
- [7]史林林,邱立坤,亢世勇.基于规则的依存树库错误自动检测与分析[J].北京大学学报(自然科学版),2016,52(1):58-64.SHI Linlin,QIU Likun,KANG Shiyong.Rule-based detection and analysis of annotation errors in dependency Treebank[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2016,52(1):58-64.
- [8]杨喜权,国頔娜,胡加·托和塔森,等.基于领域本体的词语相似度计算[J].计算机应用,2009,29(z1):164-166.YANG Xiquan,GUO Dina,TOHTASEN Hoja,et al.Word similarity computation based on domain ontology[J].Journal of computer applications,2009,29(S1):164-166.
- [9]王晋,孙涌,王璁玮.基于领域本体的文本相似度算法[J].苏州大学学报(工科版),2011,31(3):13-17.WANG Jin,SUN Yong,WANG Congwei.Text similarity computing based on domain ontology[J].Journal of Soochow University(Engineering science edition),2011,31(3):13-17.
- [10]崔诚煜,冉晓旻,冯琳.基于领域本体的专业领域词汇相似度算法[J].信息工程大学学报,2014,15(1):68-73.CUI Chengyu,RAN Xiaomin,FENG Lin.Calculation of field term similarity based on domain ontology[J].Journal of Information Engineering University,2014,15(1):68-73.