新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> The future of AI, is the future of computer
    [返回] 计算机科学论坛计算机理论与工程『 人工智能 :: 机器学习|数据挖掘|进化计算 』 → [讨论]十大经典算法之C4.5 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 15066 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: [讨论]十大经典算法之C4.5 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     hellojzz 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:5
      积分:95
      门派:XML.ORG.CN
      注册:2007/5/28

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给hellojzz发送一个短消息 把hellojzz加入好友 查看hellojzz的个人资料 搜索hellojzz在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看hellojzz的博客楼主
    发贴心情 [讨论]十大经典算法之C4.5

    上次发了个数据挖掘的十大经典算法的18个候选算法,因时间问题没有对其进行详细的介绍。
    这次想把这18个候选算法逐个做详细的介绍。
    记得有一次听吴信东老师的讲座,吴老师说:“作为一个从事数据挖掘的研究者,如果连这18个算法都没听说过,那就是要自己反省一下了。”
    所以就上网找了介绍,在这里想和大家一起学习。

    #1. C4.5

    Quinlan, J. R. 1993. C4.5: Programs for Machine Learning.
    Morgan Kaufmann Publishers Inc.

    决策树是如何工作的
    决策树一般都是自上而下的来生成的。
    选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。
    从根到叶子节点都有一条路径,这条路径就是一条“规则”。
    决策树可以是二叉的,也可以是多叉的。
    对每个节点的衡量:
    1)        通过该节点的记录数
    2)        如果是叶子节点的话,分类的路径
    3)        对叶子节点正确分类的比例。
    有些规则的效果可以比其他的一些规则要好。

    由于ID3算法在实际应用中存在一些问题,于是Quilan提出了C4.5算法,严格上说C4.5只能是ID3的一个改进算法。相信大家对ID3算法都很.熟悉了,这里就不做介绍。
        C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
        1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
        2) 在树构造过程中进行剪枝;
        3) 能够完成对连续属性的离散化处理;
        4) 能够对不完整数据进行处理。
        C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/8/6 22:03:00
     
     DMman 帅哥哟,离线,有人找我吗?魔羯座1984-1-11
      
      
      威望:1
      头衔:数据挖掘青年
      等级:研二(Pi-Calculus看得一头雾水)(版主)
      文章:803
      积分:5806
      门派:W3CHINA.ORG
      注册:2007/4/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给DMman发送一个短消息 把DMman加入好友 查看DMman的个人资料 搜索DMman在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 点击这里发送电邮给DMman 访问DMman的主页 引用回复这个贴子 回复这个贴子 查看DMman的博客2
    发贴心情 
    顶,楼主辛苦了!

    ----------------------------------------------
    数据挖掘青年 http://blogger.org.cn/blog/blog.asp?name=DMman
    纪录片之家 (很多纪录片下载)http://www.jlpzj.com/?fromuid=137653

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/8/7 8:31:00
     
     秋十三 帅哥哟,离线,有人找我吗?
      
      
      等级:大三(要不要学学XML呢?)
      文章:124
      积分:593
      门派:XML.ORG.CN
      注册:2008/11/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给秋十三发送一个短消息 把秋十三加入好友 查看秋十三的个人资料 搜索秋十三在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看秋十三的博客3
    发贴心情 
    呵呵
    才发现啊
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/2/17 11:09:00
     
     handsoicy 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:3
      积分:64
      门派:XML.ORG.CN
      注册:2009/2/19

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给handsoicy发送一个短消息 把handsoicy加入好友 查看handsoicy的个人资料 搜索handsoicy在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看handsoicy的博客4
    发贴心情 
    有没有C4.5的具体算法呢
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/2/19 15:17:00
     
     handsoicy 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:3
      积分:64
      门派:XML.ORG.CN
      注册:2009/2/19

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给handsoicy发送一个短消息 把handsoicy加入好友 查看handsoicy的个人资料 搜索handsoicy在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看handsoicy的博客5
    发贴心情 
    问一下,C4.5中处理连续属性,计算各取值划分的增益率,选取最大的划分作为该属性的增益率么?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/2/19 21:46:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2025/7/29 11:03:34

    本主题贴数5,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    78.125ms