一种基于离散度的决策树改进算法An Improved Decision Tree Algorithm Based on Dispersed Degree
郭玉滨
摘要(Abstract):
在数据挖掘中,决策树方法是一个重点研究方向。ID3方法是著名的决策树算法,在这种算法中,互信息的计算依赖于特征值数目较多的特征,这样不太合理。为此,从离散度的角度,对ID3算法进行改进,通过2种算法的对比实验,证明利用改进后的算法挖掘分类规则,不仅提高了分类的正确率,而且非常高效。
关键词(KeyWords): 决策树;离散度;ID3算法;数据挖掘
基金项目(Foundation):
作者(Author): 郭玉滨
参考文献(References):
- [1]Quinlan J R.Induction of Decision Tree[J].Machine Learn-ing,1986,1(1):81 106.
- [2]黄定轩,武振业.一类加权连续属性的多变量决策树构造方法[J].系统工程理论方法应用,2005,14(1):80 83.
- [3]魏红宁.基于SPRINT方法的并行决策树分类研究[J].计算机应用,2005,25(1):39 41.
- [4]曲开社,成文丽,王俊红.ID3算法的一种改进算法[J].计算机工程与应用,2003(25):104 107.
- [5]刘小虎,李生.决策树的优化算法[J].软件学报,1998,9(10):798 801.
- [6]洪家荣,丁明峰,李星原,等.一种新的决策树归纳学习算法[J].计算机学报,1995,18(6):471 475.
- [7]张维明.数据仓库原理与应用[M].北京:电子工业出版社,2002.
- [8]Quinlan J R.C4.5:Programs for Machine Learning[M].Morgan Kaufmann,San Francisco,USA,1992.
- [9][美]Mehmed Kantardzic.数据挖掘概念、模型、方法和算法[M].闪四清,陈茵,程雁,等译.北京:清华大学出版社,2004.
- [10]边肇祺,张学工.模式识别[M].北京:清华大学出版社,2002.
- [11]郭玉滨.数据挖掘方法中的数据转换问题[J].牡丹江大学学报,2005,14(7):59 61.
- [12]University of California,Department of Information andComputer Science.the UCI Knowledge Discovery in Data-bases Archive:http://www.ics.uci.edu/~mlearn/ML-Repository.htm1.