决策树大作业

苏睿 2001111334

一、编译运行

编程语言：C++

操作系统：Win10

编译器：mingw64 g++ 8.1.0

程序源码包含在 decision_tree_src 文件夹中，其中：

dataset：包含三个数据集tic-tac-toe，balance-scale，nursery

main.cpp：因为程序并不大，所以将所有内容都写在了一个文件中。

makefile： g++ -o main main.cpp -std=c++17 -g

使用命令 make 编译源文件得到可执行文件main.exe

./main [options]:

[-data <dataset_name>] 选择执行的数据集，可选参数tic-tac-toe, balance-scale, nursery

[-R] 使用信息增益比例进行特征选择

[-ts <train_set_size>] 选择训练集占比，取值为[0-1]，默认值0.5

[-d <max_depth>] 限制决策树的深度，整数，默认值5

[-ig <min_ig>] 根据最小信息增益进行剪枝，默认值0.05

[-s <min_samples>] 根据最少样本数目剪枝，默认值10

例：./main -data nursery -d 3 -ig 0.0 -s 20 -R 表示使用nursery数据集进行使用，决策树深度最大为3，最小信息增益为0.0，最少样本数为20，使用信息增益比进行特征选择，训练集占比为默认值0.5.

执行结果如下

输出构建决策树使用的时间，树节点的总数，正确率

二、代码说明

程序的执行过程如下：

对命令行参数进行解析，设置所需的全局变量参数，line 252-281

读取dataset目录下对应数据集的文件内容，并将各特征值从字符串映射到整数上，line 285

read_file(path)：读取文件，统计首行中逗号的数量，得到分类特征的数量，之后对每行依次处理，若某特征或类别字符串未出现过，则从0开始为其分配整数值，最终得到的数据集保存在dataset中，每条数据由结构体Data存储。如 tic-tac-toe 会得到如下的映射关系

int class_num = 2;
unordered_map<string, int> class_trans 
{
    { "positive", 0 },
    { "negative", 1 }
};

int num_attribute = 9;
vector<int> attributes_num {3, 3, 3, 3, 3, 3, 3, 3, 3};
vector<unordered_map<string, int> > attributes_trans 
{
    { { "x", 0 }, { "o", 1 }, { "b" , 2} },
    { { "x", 0 }, { "o", 1 }, { "b" , 2} },
    { { "x", 0 }, { "o", 1 }, { "b" , 2} },
    { { "x", 0 }, { "o", 1 }, { "b" , 2} },
    { { "x", 0 }, { "o", 1 }, { "b" , 2} },
    { { "x", 0 }, { "o", 1 }, { "b" , 2} },
    { { "x", 0 }, { "o", 1 }, { "b" , 2} },
    { { "x", 0 }, { "o", 1 }, { "b" , 2} },
    { { "x", 0 }, { "o", 1 }, { "b" , 2} }
};

随机打乱数据集，根据 train_set_size 划分出训练集 train 和测试集 test，line 287-289

divide_dataset 对于每个class分别进行划分，保证在每个训练集和测试集中每个class所占比例相同，为了之后测试预剪枝算法的效果，这里固定随机种子，每次运行的结果均相同。
构建决策树，并对此阶段计时，line 298-303

树节点 TreeNode 类，其中 TreeNode::child 表示其子节点们的指针，TreeNode::nattribute表示该节点的分类根据的特征序号，TreeNode::nclass 指示是否为叶节点，若不为叶节点，则为-1，否则表示该叶节点所属的分类类别；

构造函数TreeNode::TreeNode()递归地构建决策树，过程：统计出当前数据子集中占多数的类别majority；执行各种预剪枝策略，最小样本数目、已全部为同一类别、最大树深度；遍历还未使用过的分类特征，每个计算出信息增益，得到达到最大信息增益对应的分类特征；执行最小信息增益预剪枝；根据该特征划分子数据集，递归构建子树。

TreeNode::classify()函数递归地对数据进行预测分类。
在测试集上测试决策树的预测准确率，line 307-313

三、实验结果与分析

数据集特征的分析

tic-tac-toe

class	N	N[%]
positive	626	34.60%
negative	332	65.30%

1	2	3	4	5	6	7	8	9
x: 418	x: 378	x: 418	x: 378	x: 458	x: 378	x: 418	x: 378	x: 418
o: 335	o: 330	o: 335	o: 330	o: 340	o: 330	o: 335	o: 330	o: 335
b: 205	b: 250	b: 205	b: 250	b: 160	b: 250	b: 205	b: 250	b: 205

balance-scale

class	N	N[%]
L	288	46.00%
B	49	7.80%
R	288	46.00%

Left-Weight	Left-Distance	Right-Weight	Right-Distance
1 : 125	1 : 125	1 : 125	1 : 125
2 : 125	2 : 125	2 : 125	2 : 125
3 : 125	3 : 125	3 : 125	3 : 125
4 : 125	4 : 125	4 : 125	4 : 125
5 : 125	5 : 125	5 : 125	5 : 125

nursery

class	N	N[%]
not_recom	4320	33.3%
priority	4266	32.9%
recommend	2	0.0%
spec_prior	4044	31.2%
very_recom	328	2.5%

parents	has_nurs	form	children	housing	finance	social	health
unsual : 4320	proper : 2592	complete : 3240	1 : 3240	convenient : 4320	convienient : 6480	nonprob : 4320	recommended : 4320
pretentious : 4320	less_proper : 2592	completed : 3240	2 : 3240	less_conv : 4320	inconv : 6480	slightly_prob : 4320	priority : 4320
great_pret : 4320	improper : 2592	imcomplete : 3240	3 : 3240	critical : 4320		problematic : 4320	not_recom : 4320
	critical : 2592	foster : 3240	more : 3240
	very_crit : 2592

基于IG与IGR的决策树构造

此阶段命令行参数使用 -d 100 -ig 0.0 -s 0 避免预剪枝

由于数据集 balance-scale 中类别在特征前，这里预处理了一下，将类别放在特征后

对训练集大小从0-1，以0.1为步长依次实验，（程序运行时间均短于0.2s）结果如下：

tic-tac-toe

		0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9
IG	correct(%)	68.25	71.58	78.42	81.25	84.13	84.64	89.58	88.08	82.47
	nodes	58	118	145	178	190	235	265	298	283
IGR	correct(%)	67.32	71.32	79.02	84.38	87.27	87.76	90.63	90.16	83.51
	nodes	61	121	148	160	190	235	268	298	283

balance-scale

		0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9
IG	correct(%)	52.92	55.18	57.63	56.38	54.95	55.95	50.79	50.00	44.44
	nodes	61	131	206	266	361	416	441	481	501
IGR	correct(%)	49.91	56.37	55.13	55.85	54.95	53.97	50.79	50.00	44.44
	nodes	61	131	211	266	361	416	441	481	501

nursery

		0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9
IG	correct(%)	90.44	92.99	94.29	95.35	95.66	96.30	97.07	97.49	98.23
	nodes	359	549	677	809	889	963	1053	1110	1129
IGR	correct(%)	89.35	92.55	93.97	94.88	95.62	96.45	96.94	97.26	98.15
	nodes	354	551	677	803	884	953	1047	1114	1126

可以看到使用信息增益IG和信息增益比例IGR的实验结果相近，三个数据集在训练集占0.7的时候正确率较高，因此我们选择训练集大小为0.7作为之后的baseline。

程序执行时间 [0.001 - 0.076] 秒，时间复杂度O(KMN)，其中K为特征数，M为特征的种类数，N为数据集大小，即使是整个nursery数据集 O(5 * 8 * 12960)，因此程序执行时间合理，并且很快不需要加速。

预剪枝策略

我们注意到，预剪枝的参数对准确率的影响很大，甚至在多数情况下，使用预剪枝的结果比不使用预剪枝还要差，因此我们写了个python脚本 test.py 来搜索最优的预剪枝参数。（所有的训练集占比均取0.7）

其执行方式为 python test.py [dataset]

我们对最大深度depth，从2起至20，以步长为2搜索，共9种情况；

对最小信息增益ig，从0.005起至0.05，以步长为0.005搜索，共9种情况；

对最小样本数s，从0起至20，以步长为2搜索，共10种情况；

对是否使用信息增益比例，均搜索，共2种情况；

共计执行main 9 * 9 * 10 * 2 = 1620 次，得到三个数据集的最优参数如下：

tic-tac-toe : 最高准确率 92.01% > 90.63%

balance-scale : 最高准确率 68.25% > 50.79%

nursery : 最高准确率 97.30% > 97.07%

在选择最优的参数下，预剪枝的策略能够提升分类的准确率。

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
src		src
2021决策树大作业(1).pdf		2021决策树大作业(1).pdf
ReadMe.md		ReadMe.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

决策树大作业

一、编译运行

二、代码说明

三、实验结果与分析

About

Releases

Packages

Languages

woAIxuexiSR/Decision-Tree

Folders and files

Latest commit

History

Repository files navigation

决策树大作业

一、 编译运行

二、代码说明

三、实验结果与分析

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

一、编译运行

Packages