以文本方式查看主题 - 计算机科学论坛 (http://bbs.xml.org.cn/index.asp) -- 『 人工智能 :: 机器学习|数据挖掘|进化计算 』 (http://bbs.xml.org.cn/list.asp?boardid=62) ---- 问几个数据挖掘方面的问题 (http://bbs.xml.org.cn/dispbbs.asp?boardid=62&rootid=&id=15493) |
-- 作者:enova -- 发布时间:3/13/2005 3:54:00 PM -- 问几个数据挖掘方面的问题 请先阅读下面一段描述: 由于这些数据集没有遗失数据,为了验证我们提出的方法,我们通过随机数发生器,人为地在条件属性值上随机产生一定比例的遗失数据,得到一个不完备的信息系统(暂时不区分条件属性和决策属性),在其上作完整化实验.然后,将完整化后的信息系统看成一个决策系统(此时区分为条件属性和决策属性),并作为数据集.用5个不同的随机数作为种子,分别通过5次随机划分为两个数据集,每次划分均按80%和20%比例.用前者作为训练集,将得出的分类规则在原来完备的数据集上进行测试,分别作5次训练测试. (张伟等。一种基于ROUGH集理论的不完备数据分析方法。2003年6月《模式识别与人工智能》) 问题1: |
-- 作者:enova -- 发布时间:3/13/2005 3:55:00 PM -- 谢谢大家了!!!(刚才忘记答谢了,补个回帖) |
-- 作者:eyounx -- 发布时间:3/13/2005 5:45:00 PM -- see blew
btw: 尽量多看国际杂志上的文章,JMLR,JAIR等杂志是免费的 |
-- 作者:enova -- 发布时间:3/13/2005 8:33:00 PM -- 谢谢! 1)一般来说是在剩下的20%D'上测试,不过这里说的好像是D.对于不完整的数据集的挖掘,该怎样去测试自己的方法的分类精度呢。这里提到的是一种方法把 恩,我有空会多看的 |
-- 作者:enova -- 发布时间:3/13/2005 8:49:00 PM -- 有没有什么工具可以计算分类规则的精度呢? 输入:分类规则,数据集 输出:分类精度 |
-- 作者:eyounx -- 发布时间:3/13/2005 11:39:00 PM -- 数据集中的一个样本,是用向量表示的,例如有n个特征的样本,标示为[f1,f2,f3,...,fn,l],其中l是样本标签。训练出的规则是根据f1,f2,...,fn对l的预测。"不完整"这里指的是f1...fn中有缺失,或者是训练集中的有标签缺失的样本,但是测试集的标签都是完整的。通过比较标签和规则输出来判断是否预测正确。 常用的精度测试方法有交叉验证,例如10倍交叉验证(10-fold cross validation),将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。 |
-- 作者:IceMao -- 发布时间:3/20/2005 7:08:00 PM -- T. Mitchell. Machine Learning, P107 Chapter5(Chinese Edition) 有相关描述 |
-- 作者:enova -- 发布时间:3/23/2005 8:47:00 PM -- 测试集的数据也是有缺失的,那么含缺失值的对象怎么判断它是否和规则匹配呢? |
-- 作者:hjjjl -- 发布时间:7/4/2005 4:18:00 PM -- up |
-- 作者:netgod -- 发布时间:7/9/2005 11:02:00 AM -- ding |
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
2,015.625ms |