大数据环境下文本信息挖掘系统设计Design of text information mining system in big data environment
赵逸智,张云峰
摘要(Abstract):
传统文本信息挖掘技术系统能够对文本信息进行系统的信息挖掘,但是在大数据环境下容易产生系统的数据识别乱码以及数据干扰。针对上述问题,提出一种大数据环境下文本信息挖掘系统设计方案,在系统的硬件设备上增加数据简化器,通过数据简化器能够对数据进行一定的过滤筛选,保证数据进入识别阶段的准确率,同时促进了数据挖掘过程的效率,对文本信息挖掘的过程使用质数矩阵模型,通过建立的质数矩阵模型能够有效地对文本信息进行深层次的挖掘。同时优化了Aprioirt计算方法,保证了对文本信息的优先识别度,避免了传统方法中出现的数据混乱以及数据干扰问题。为了验证设计的大数据环境下文本信息挖掘系统的有效性,设计了对比仿真实验,通过实验数据的分析,有效地证明了设计的大数据环境下文本信息挖掘系统的有效性,避免了传统方法中出现的数据混乱以及数据干扰问题。
关键词(KeyWords): 大数据环境;文本信息;关联密度;Aprioirt计算方法;挖掘系统
基金项目(Foundation): 廊坊市科技局项目:一种改进的C4.5算法在构造客户分类决策树中的应用(2016011090);; 北华航天工业学院校级项目:数据挖掘在高校学生成绩管理中的应用(KY-2016-19)~~
作者(Author): 赵逸智,张云峰
DOI: 10.16652/j.issn.1004-373x.2018.01.028
参考文献(References):
- [1]郜凯英,杨宜勇.中国互联网+社会保障信息系统构建:基于大数据挖掘视角[J].经济与管理研究,2016,37(5):83-89.GAO Kaiying,YANG Yiyong.Building of an Internet+social security informatization system in china-from perspective of big data mining[J].Research on economics and management,2016,37(5):83-89.
- [2]李宁,罗文娟,庄福振,等.基于Map Reduce的并行PLSA算法及在文本挖掘中的应用[J].中文信息学报,2015,29(2):79-86.LI Ning,LUO Wenjuan,ZHUANG Fuzhen,et al.Map Reduce based parallel probabilistic latent semantic analysis for text mining[J].Journal of Chinese Information Processing,2015,29(2):79-86.
- [3]葛岩,赵海,秦裕林,等.国家、地区媒体形象的数据挖掘:基于认知心理学与计算机自然语言处理技术的视角[J].学术月刊,2015(7):163-170.GE Yan,ZHAO Hai,QIN Yulin,et al.Data mining of national and regional media images:from the perspective of cognitive psychology and computer natural language processing technology[J].Academic monthly,2015(7):163-170.
- [4]周勇.大数据驱动下的视频内容生产模式探索:解析腾讯《事实说》节目的创新实践[J].新闻与写作,2015(5):14-17.ZHOU Yong.Exploration of video content production model driven by big data:analysis of the innovation practice of Tencent′s Fact program[J].News and writing,2015(5):14-17.
- [5]江波,王鄂生,孙巍.面向大数据知识服务的数字资源聚合与行业数字内容运营平台建设路径分析[J].科技与出版,2016(12):80-83.JIANG Bo,WANG Esheng,SUN Wei.Analysis of digital resource aggregation and industry digital content operation platform construction for big data knowledge service[J].Sciencetechnology&publication,2016(12):80-83.
- [6]杨张博,高山行.基于文本挖掘和语义网络方法的战略导向交互现象研究:以生物技术企业为例[J].科学学与科学技术管理,2015,36(1):139-150.YANG Zhangbo,GAO Shanxing.Study on interactive pattern of strategic orientations based on text mining and semantic networks:case study of biotechnology firms[J].Science of science and management of S.&T.,2015,36(1):139-150.
- [7]王末,王卷乐,赫运涛.地学数据共享网用户Web行为预测及数据推荐方法[J].地球信息科学学报,2017,19(5):595-604.WANG Mo,WANG Juanle,HE Yuntao.An approach for prediction of Web user behavior and data recommendation for geoscience data sharing portals[J].Journal of geo-information science,2017,19(5):595-604.
- [8]郑祥江,殷明均.大数据视域下高校教学管理信息系统建设研究:以西南科技大学教学管理信息化建设为例[J].黑龙江高教研究,2015(1):50-52.ZHENG Xiangjiang,YIN Mingjun.The research on the teaching activities management system(TAMS)of higher education institutions under"big data":based on the TAM of Southwest University of Science and Technology[J].Heilongjiang researches on higher education,2015(1):50-52.
- [9]李慧娟.大数据食物链、信息聚类系统、定制解决方案:汤森路透商业模式比较分析[J].编辑之友,2015(2):79-84.LI Huijuan.Big data chain,information cluster system and customized solutions:a comparative analysis on the business model of Thomson Reuters[J].Editors′friend,2015(2):79-84.
- [10]徐迭石,刘胜辉,马超,等.大数据环境下MES作业计划与调度能力云服务化研究[J].计算机工程与科学,2016,38(4):624-633.XU Dieshi,LIU Shenghui,MA Chao,et al.A cloud servitization method for job shop scheduling capability of MES in big data environment[J].Computer engineering and science,2016,38(4):624-633.