计算机科学论坛--显示贴子

以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『人工智能 :: 机器学习|数据挖掘|进化计算』  (http://bbs.xml.org.cn/list.asp?boardid=62)
----  问几个数据挖掘方面的问题  (http://bbs.xml.org.cn/dispbbs.asp?boardid=62&rootid=&id=15493)

--  作者：enova
--  发布时间：3/13/2005 3:54:00 PM

--  问几个数据挖掘方面的问题
请先阅读下面一段描述：
     由于这些数据集没有遗失数据，为了验证我们提出的方法，我们通过随机数发生器，人为地在条件属性值上随机产生一定比例的遗失数据，得到一个不完备的信息系统(暂时不区分条件属性和决策属性)，在其上作完整化实验．然后，将完整化后的信息系统看成一个决策系统(此时区分为条件属性和决策属性)，并作为数据集．用5个不同的随机数作为种子，分别通过5次随机划分为两个数据集，每次划分均按80％和20％比例．用前者作为训练集，将得出的分类规则在原来完备的数据集上进行测试，分别作5次训练测试．
（张伟等。一种基于ROUGH集理论的不完备数据分析方法。2003年6月《模式识别与人工智能》）

问题1：
1）这段话的意思是不是说：设一完整的数据集为D，先令D有遗失值，得到数据集D'，从D'中随机划出80%的数据来做实验得到分类规则，然后再将这分类规则用在D上测试
2）实验得到的分类规则的精度怎样得到？将每条规则运用于数据，精度=能够适用的规则/规则总数？
3）“用5个不同的随机数作为种子”是什么意思？
4）hayes和hayes-roth是同一个数据集吗？如果不是，哪里可以找到hayes数据集？
5）...N）根据各位的回复而定......

--  作者：enova
--  发布时间：3/13/2005 3:55:00 PM

--
谢谢大家了！！！（刚才忘记答谢了，补个回帖）

--  作者：eyounx
--  发布时间：3/13/2005 5:45:00 PM

--
see blew

以下是引用enova在2005-3-13 15:54:01的发言：
请先阅读下面一段描述：
由于这些数据集没有遗失数据，为了验证我们提出的方法，我们通过随机数发生器，人为地在条件属性值上随机产生一定比例的遗失数据，得到一个不完备的信息系统(暂时不区分条件属性和决策属性)，在其上作完整化实验．然后，将完整化后的信息系统看成一个决策系统(此时区分为条件属性和决策属性)，并作为数据集．用5个不同的随机数作为种子，分别通过5次随机划分为两个数据集，每次划分均按80％和20％比例．用前者作为训练集，将得出的分类规则在原来完备的数据集上进行测试，分别作5次训练测试．
（张伟等。一种基于ROUGH集理论的不完备数据分析方法。2003年6月《模式识别与人工智能》）
问题1：
1）这段话的意思是不是说：设一完整的数据集为D，先令D有遗失值，得到数据集D'，从D'中随机划出80%的数据来做实验得到分类规则，然后再将这分类规则用在D上测试
应该是在剩下的20%D'上测试，这个看起来是交叉验证的变形。
2）实验得到的分类规则的精度怎样得到？将每条规则运用于数据，精度=能够适用的规则/规则总数？
一般来说，得到的所有所有应该当作一个整体，每一条规则的前件是不一样的：
accuracy = 0;
对每一个测试数据{
如果应用这一组规则得到的结果与真实结果一样，则accuracy++;
}
accuracy /= 测试数据数量。
3）“用5个不同的随机数作为种子”是什么意思？
意思就是5次80%-20%的划分是不一样的
4）hayes和hayes-roth是同一个数据集吗？如果不是，哪里可以找到hayes数据集？
应该是，这个是UCI数据集中的一个，google "UCI dataset repository"
5）...N）根据各位的回复而定......

btw: 尽量多看国际杂志上的文章，JMLR,JAIR等杂志是免费的

--  作者：enova
--  发布时间：3/13/2005 8:33:00 PM

--
谢谢！
1）一般来说是在剩下的20%D'上测试，不过这里说的好像是D.对于不完整的数据集的挖掘，该怎样去测试自己的方法的分类精度呢。这里提到的是一种方法把

恩，我有空会多看的
多谢！！！

--  作者：enova
--  发布时间：3/13/2005 8:49:00 PM

--
有没有什么工具可以计算分类规则的精度呢？
输入：分类规则，数据集
输出：分类精度

--  作者：eyounx
--  发布时间：3/13/2005 11:39:00 PM

--
数据集中的一个样本，是用向量表示的，例如有n个特征的样本，标示为[f1,f2,f3,...,fn,l]，其中l是样本标签。训练出的规则是根据f1,f2,...,fn对l的预测。"不完整"这里指的是f1...fn中有缺失，或者是训练集中的有标签缺失的样本，但是测试集的标签都是完整的。通过比较标签和规则输出来判断是否预测正确。
常用的精度测试方法有交叉验证，例如10倍交叉验证(10-fold cross validation)，将数据集分成十分，轮流将其中9份做训练1份做测试，10次的结果的均值作为对算法精度的估计，一般还需要进行多次10倍交叉验证求均值，例如10次10倍交叉验证，更精确一点。

--  作者：IceMao
--  发布时间：3/20/2005 7:08:00 PM

--
T. Mitchell. Machine Learning, P107 Chapter5(Chinese Edition)
有相关描述

--  作者：enova
--  发布时间：3/23/2005 8:47:00 PM

--
测试集的数据也是有缺失的，那么含缺失值的对象怎么判断它是否和规则匹配呢？

--  作者：hjjjl
--  发布时间：7/4/2005 4:18:00 PM

--
up

--  作者：netgod
--  发布时间：7/9/2005 11:02:00 AM

--
ding

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

2,015.625ms