新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> The future of AI, is the future of computer
    [返回] 计算机科学论坛计算机理论与工程『 人工智能 :: 机器学习|数据挖掘|进化计算 』 → 问几个数据挖掘方面的问题 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 7651 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 问几个数据挖掘方面的问题 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     enova 美女呀,离线,快来找我吧!
      
      
      等级:大二(研究C++)
      文章:31
      积分:201
      门派:XML.ORG.CN
      注册:2005/3/13

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给enova发送一个短消息 把enova加入好友 查看enova的个人资料 搜索enova在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看enova的博客楼主
    发贴心情 问几个数据挖掘方面的问题

    请先阅读下面一段描述:
         由于这些数据集没有遗失数据,为了验证我们提出的方法,我们通过随机数发生器,人为地在条件属性值上随机产生一定比例的遗失数据,得到一个不完备的信息系统(暂时不区分条件属性和决策属性),在其上作完整化实验.然后,将完整化后的信息系统看成一个决策系统(此时区分为条件属性和决策属性),并作为数据集.用5个不同的随机数作为种子,分别通过5次随机划分为两个数据集,每次划分均按80%和20%比例.用前者作为训练集,将得出的分类规则在原来完备的数据集上进行测试,分别作5次训练测试.
    (张伟等。一种基于ROUGH集理论的不完备数据分析方法。2003年6月《模式识别与人工智能》)

    问题1:
    1)这段话的意思是不是说:设一完整的数据集为D,先令D有遗失值,得到数据集D',从D'中随机划出80%的数据来做实验得到分类规则,然后再将这分类规则用在D上测试
    2)实验得到的分类规则的精度怎样得到?将每条规则运用于数据,精度=能够适用的规则/规则总数?
    3)“用5个不同的随机数作为种子”是什么意思?
    4)hayes和hayes-roth是同一个数据集吗?如果不是,哪里可以找到hayes数据集?
    5)...N)根据各位的回复而定......


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/3/13 15:54:00
     
     enova 美女呀,离线,快来找我吧!
      
      
      等级:大二(研究C++)
      文章:31
      积分:201
      门派:XML.ORG.CN
      注册:2005/3/13

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给enova发送一个短消息 把enova加入好友 查看enova的个人资料 搜索enova在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看enova的博客2
    发贴心情 
    谢谢大家了!!!(刚才忘记答谢了,补个回帖)
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/3/13 15:55:00
     
     eyounx 帅哥哟,离线,有人找我吗?金牛座1982-5-3
      
      
      威望:9
      等级:大四(GRE考了1400分!)(版主)
      文章:272
      积分:1260
      门派:GOOGLEBBS.NET
      注册:2005/3/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给eyounx发送一个短消息 把eyounx加入好友 查看eyounx的个人资料 搜索eyounx在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 访问eyounx的主页 引用回复这个贴子 回复这个贴子 查看eyounx的博客3
    发贴心情 
    see blew

    以下是引用enova在2005-3-13 15:54:01的发言:
    请先阅读下面一段描述:
          由于这些数据集没有遗失数据,为了验证我们提出的方法,我们通过随机数发生器,人为地在条件属性值上随机产生一定比例的遗失数据,得到一个不完备的信息系统(暂时不区分条件属性和决策属性),在其上作完整化实验.然后,将完整化后的信息系统看成一个决策系统(此时区分为条件属性和决策属性),并作为数据集.用5个不同的随机数作为种子,分别通过5次随机划分为两个数据集,每次划分均按80%和20%比例.用前者作为训练集,将得出的分类规则在原来完备的数据集上进行测试,分别作5次训练测试.
    (张伟等。一种基于ROUGH集理论的不完备数据分析方法。2003年6月《模式识别与人工智能》)

    问题1:
    1)这段话的意思是不是说:设一完整的数据集为D,先令D有遗失值,得到数据集D',从D'中随机划出80%的数据来做实验得到分类规则,然后再将这分类规则用在D上测试

    应该是在剩下的20%D'上测试,这个看起来是交叉验证的变形。

    2)实验得到的分类规则的精度怎样得到?将每条规则运用于数据,精度=能够适用的规则/规则总数?

    一般来说,得到的所有所有应该当作一个整体,每一条规则的前件是不一样的:
    accuracy = 0;
    对每一个测试数据{
          如果应用这一组规则得到的结果与真实结果一样,则accuracy++;
    }
    accuracy /= 测试数据数量。

    3)“用5个不同的随机数作为种子”是什么意思?

    意思就是5次80%-20%的划分是不一样的

    4)hayes和hayes-roth是同一个数据集吗?如果不是,哪里可以找到hayes数据集?

    应该是,这个是UCI数据集中的一个,google "UCI dataset repository"

    5)...N)根据各位的回复而定......


    btw: 尽量多看国际杂志上的文章,JMLR,JAIR等杂志是免费的

    ----------------------------------------------
    member of LAMDA, CS, NJU
    http://lamda.nju.edu.cn/
    http://lamda.nju.edu.cn/yuy

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/3/13 17:45:00
     
     enova 美女呀,离线,快来找我吧!
      
      
      等级:大二(研究C++)
      文章:31
      积分:201
      门派:XML.ORG.CN
      注册:2005/3/13

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给enova发送一个短消息 把enova加入好友 查看enova的个人资料 搜索enova在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看enova的博客4
    发贴心情 
    谢谢!
    1)一般来说是在剩下的20%D'上测试,不过这里说的好像是D.对于不完整的数据集的挖掘,该怎样去测试自己的方法的分类精度呢。这里提到的是一种方法把

    恩,我有空会多看的
    多谢!!!

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/3/13 20:33:00
     
     enova 美女呀,离线,快来找我吧!
      
      
      等级:大二(研究C++)
      文章:31
      积分:201
      门派:XML.ORG.CN
      注册:2005/3/13

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给enova发送一个短消息 把enova加入好友 查看enova的个人资料 搜索enova在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看enova的博客5
    发贴心情 
    有没有什么工具可以计算分类规则的精度呢?
    输入:分类规则,数据集
    输出:分类精度
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/3/13 20:49:00
     
     eyounx 帅哥哟,离线,有人找我吗?金牛座1982-5-3
      
      
      威望:9
      等级:大四(GRE考了1400分!)(版主)
      文章:272
      积分:1260
      门派:GOOGLEBBS.NET
      注册:2005/3/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给eyounx发送一个短消息 把eyounx加入好友 查看eyounx的个人资料 搜索eyounx在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 访问eyounx的主页 引用回复这个贴子 回复这个贴子 查看eyounx的博客6
    发贴心情 
    数据集中的一个样本,是用向量表示的,例如有n个特征的样本,标示为[f1,f2,f3,...,fn,l],其中l是样本标签。训练出的规则是根据f1,f2,...,fn对l的预测。"不完整"这里指的是f1...fn中有缺失,或者是训练集中的有标签缺失的样本,但是测试集的标签都是完整的。通过比较标签和规则输出来判断是否预测正确。
    常用的精度测试方法有交叉验证,例如10倍交叉验证(10-fold cross validation),将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。

    ----------------------------------------------
    member of LAMDA, CS, NJU
    http://lamda.nju.edu.cn/
    http://lamda.nju.edu.cn/yuy

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/3/13 23:39:00
     
     IceMao 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:5
      积分:85
      门派:XML.ORG.CN
      注册:2005/3/15

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给IceMao发送一个短消息 把IceMao加入好友 查看IceMao的个人资料 搜索IceMao在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看IceMao的博客7
    发贴心情 
    T. Mitchell. Machine Learning, P107 Chapter5(Chinese Edition)
    有相关描述
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/3/20 19:08:00
     
     enova 美女呀,离线,快来找我吧!
      
      
      等级:大二(研究C++)
      文章:31
      积分:201
      门派:XML.ORG.CN
      注册:2005/3/13

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给enova发送一个短消息 把enova加入好友 查看enova的个人资料 搜索enova在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看enova的博客8
    发贴心情 
    测试集的数据也是有缺失的,那么含缺失值的对象怎么判断它是否和规则匹配呢?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/3/23 20:47:00
     
     hjjjl 美女呀,离线,快来找我吧!
      
      
      等级:大一新生
      文章:5
      积分:86
      门派:W3CHINA.ORG
      注册:2005/6/6

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给hjjjl发送一个短消息 把hjjjl加入好友 查看hjjjl的个人资料 搜索hjjjl在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看hjjjl的博客9
    发贴心情 
    up

    ----------------------------------------------
    有一种画,叫做水墨画;有一种女孩,被称为水墨女孩.......

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/7/4 16:18:00
     
     netgod 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:8
      积分:85
      门派:XML.ORG.CN
      注册:2005/5/4

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给netgod发送一个短消息 把netgod加入好友 查看netgod的个人资料 搜索netgod在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看netgod的博客10
    发贴心情 
    ding
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/7/9 11:02:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2025/9/5 16:55:06

    本主题贴数10,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    6,367.188ms