以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『 人工智能 :: 机器学习|数据挖掘|进化计算 』  (http://bbs.xml.org.cn/list.asp?boardid=62)
----  问几个数据挖掘方面的问题  (http://bbs.xml.org.cn/dispbbs.asp?boardid=62&rootid=&id=15493)


--  作者:enova
--  发布时间:3/13/2005 3:54:00 PM

--  问几个数据挖掘方面的问题
请先阅读下面一段描述:
     由于这些数据集没有遗失数据,为了验证我们提出的方法,我们通过随机数发生器,人为地在条件属性值上随机产生一定比例的遗失数据,得到一个不完备的信息系统(暂时不区分条件属性和决策属性),在其上作完整化实验.然后,将完整化后的信息系统看成一个决策系统(此时区分为条件属性和决策属性),并作为数据集.用5个不同的随机数作为种子,分别通过5次随机划分为两个数据集,每次划分均按80%和20%比例.用前者作为训练集,将得出的分类规则在原来完备的数据集上进行测试,分别作5次训练测试.
(张伟等。一种基于ROUGH集理论的不完备数据分析方法。2003年6月《模式识别与人工智能》)

问题1:
1)这段话的意思是不是说:设一完整的数据集为D,先令D有遗失值,得到数据集D',从D'中随机划出80%的数据来做实验得到分类规则,然后再将这分类规则用在D上测试
2)实验得到的分类规则的精度怎样得到?将每条规则运用于数据,精度=能够适用的规则/规则总数?
3)“用5个不同的随机数作为种子”是什么意思?
4)hayes和hayes-roth是同一个数据集吗?如果不是,哪里可以找到hayes数据集?
5)...N)根据各位的回复而定......


--  作者:enova
--  发布时间:3/13/2005 3:55:00 PM

--  
谢谢大家了!!!(刚才忘记答谢了,补个回帖)
--  作者:eyounx
--  发布时间:3/13/2005 5:45:00 PM

--  
see blew

以下是引用enova在2005-3-13 15:54:01的发言:
请先阅读下面一段描述:
      由于这些数据集没有遗失数据,为了验证我们提出的方法,我们通过随机数发生器,人为地在条件属性值上随机产生一定比例的遗失数据,得到一个不完备的信息系统(暂时不区分条件属性和决策属性),在其上作完整化实验.然后,将完整化后的信息系统看成一个决策系统(此时区分为条件属性和决策属性),并作为数据集.用5个不同的随机数作为种子,分别通过5次随机划分为两个数据集,每次划分均按80%和20%比例.用前者作为训练集,将得出的分类规则在原来完备的数据集上进行测试,分别作5次训练测试.
(张伟等。一种基于ROUGH集理论的不完备数据分析方法。2003年6月《模式识别与人工智能》)

问题1:
1)这段话的意思是不是说:设一完整的数据集为D,先令D有遗失值,得到数据集D',从D'中随机划出80%的数据来做实验得到分类规则,然后再将这分类规则用在D上测试

应该是在剩下的20%D'上测试,这个看起来是交叉验证的变形。

2)实验得到的分类规则的精度怎样得到?将每条规则运用于数据,精度=能够适用的规则/规则总数?

一般来说,得到的所有所有应该当作一个整体,每一条规则的前件是不一样的:
accuracy = 0;
对每一个测试数据{
      如果应用这一组规则得到的结果与真实结果一样,则accuracy++;
}
accuracy /= 测试数据数量。

3)“用5个不同的随机数作为种子”是什么意思?

意思就是5次80%-20%的划分是不一样的

4)hayes和hayes-roth是同一个数据集吗?如果不是,哪里可以找到hayes数据集?

应该是,这个是UCI数据集中的一个,google "UCI dataset repository"

5)...N)根据各位的回复而定......


btw: 尽量多看国际杂志上的文章,JMLR,JAIR等杂志是免费的


--  作者:enova
--  发布时间:3/13/2005 8:33:00 PM

--  
谢谢!
1)一般来说是在剩下的20%D'上测试,不过这里说的好像是D.对于不完整的数据集的挖掘,该怎样去测试自己的方法的分类精度呢。这里提到的是一种方法把

恩,我有空会多看的
多谢!!!


--  作者:enova
--  发布时间:3/13/2005 8:49:00 PM

--  
有没有什么工具可以计算分类规则的精度呢?
输入:分类规则,数据集
输出:分类精度
--  作者:eyounx
--  发布时间:3/13/2005 11:39:00 PM

--  
数据集中的一个样本,是用向量表示的,例如有n个特征的样本,标示为[f1,f2,f3,...,fn,l],其中l是样本标签。训练出的规则是根据f1,f2,...,fn对l的预测。"不完整"这里指的是f1...fn中有缺失,或者是训练集中的有标签缺失的样本,但是测试集的标签都是完整的。通过比较标签和规则输出来判断是否预测正确。
常用的精度测试方法有交叉验证,例如10倍交叉验证(10-fold cross validation),将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。
--  作者:IceMao
--  发布时间:3/20/2005 7:08:00 PM

--  
T. Mitchell. Machine Learning, P107 Chapter5(Chinese Edition)
有相关描述
--  作者:enova
--  发布时间:3/23/2005 8:47:00 PM

--  
测试集的数据也是有缺失的,那么含缺失值的对象怎么判断它是否和规则匹配呢?

--  作者:hjjjl
--  发布时间:7/4/2005 4:18:00 PM

--  
up
--  作者:netgod
--  发布时间:7/9/2005 11:02:00 AM

--  
ding
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
2,015.625ms