背景: 张三看了14套房子,以下是这些房子具备的属性以及张三对于购买这些房子的意愿: 在这14套房中,张三愿意购买的有10套,不愿意购买的有4套。由此可得原表格的熵为: 对于只有1个车库的房子,房子具备的属性以及张三对于购买这些房子的意愿如下所示: 此表格的熵为: 对于只有2个车库的房子,房子具备的属性以及张三对于购买这些房子的意愿如下所示: 此表格的熵为:利用ID3算法实现从数据集归纳出决策树。
张三想要买一套房,可能左右他是否愿意购买这套房主要有四个方面的因素,这四种因素及可能出现的值如下表所示:
院子
车库数
楼层数
地理位置
大/小
1/2/3
2/3
城郊/市中心
院子
车库数
楼层数
地理位置
是否愿意购买
大
3
2
城郊
是
小
2
3
市中心
是
小
1
3
市中心
否
小
2
3
城郊
是
大
3
3
市中心
是
大
2
3
市中心
是
小
2
2
市中心
否
小
3
3
城郊
是
大
1
2
市中心
是
大
1
3
城郊
是
小
3
2
城郊
是
大
2
2
城郊
否
大
1
2
城郊
是
小
1
2
城郊
否
H(S)=−144log2144−1410log21410
每个因素的信息增益:
院子
愿意
不愿意
大
6
1
小
4
3
G(S,院子)=H(S)−∣S∣∣S大∣H(S大)−∣S∣∣S小∣H(S小)=0.072
车库数
愿意
不愿意
1
3
2
2
3
2
3
4
0
G(S,车库数)=H(S)−∣S∣∣S1∣H(S1)−∣S∣∣S2∣H(S2)−∣S∣∣S3∣H(S3)=0.166
楼层数
愿意
不愿意
2
4
3
3
6
1
G(S,楼层数)=H(S)−∣S∣∣S2∣H(S2)−∣S∣∣S3∣H(S3)=0.072
地理位置
愿意
不愿意
市中心
4
2
郊区
6
2
G(S,地理位置)=H(S)−∣S∣∣S市中心∣H(S市中心)−∣S∣∣S郊区∣H(S郊区)=0.003
显然,车库数的信息增益远大于其他三项,且当车库数为3时所有结果均为愿意,因此初始决策树如下图所示:
院子
楼层数
地理位置
是否愿意购买
小
3
市中心
否
大
2
市中心
是
大
3
城郊
是
大
2
城郊
是
小
2
城郊
否
H(S)=−53log253−52log252=0.971
其中每个属性的信息增益:
G(S,院子)=H(S)−∣S∣∣S大∣H(S大)−∣S∣∣S小∣H(S小)=0.971
G(S,楼层数)=H(S)−∣S∣∣S2∣H(S2)−∣S∣∣S3∣H(S3)=0.020
G(S,地理位置)=H(S)−∣S∣∣S市中心∣H(S市中心)−∣S∣∣S郊区∣H(S郊区)=0.020
于是决策树可以以“院子大小”为标准,进一步划分,如下所示:
院子
楼层数
地理位置
是否愿意购买
小
3
市中心
是
小
3
城郊
是
大
3
市中心
是
小
2
市中心
否
大
2
城郊
否
H(S)=−53log253−52log252=0.971
其中每个属性的信息增益:
G(S,院子)=H(S)−∣S∣∣S大∣H(S大)−∣S∣∣S小∣H(S小)=0.020
G(S,楼层数)=H(S)−∣S∣∣S2∣H(S2)−∣S∣∣S3∣H(S3)=0.971
G(S,地理位置)=H(S)−∣S∣∣S市中心∣H(S市中心)−∣S∣∣S郊区∣H(S郊区)=0.020
由此易得完整的决策树,如下所示:
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox网页视频下载器 下载地址: ImovieBox网页视频下载器-最新版本下载
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算