计算机科学论坛--问几个数据挖掘方面的问题

新书推介：《语义网技术体系》
作者：瞿裕忠，胡伟，程龚

XML论坛

W3CHINA.ORG讨论区

计算机科学论坛

SOAChina论坛

Blog

开放翻译计划

新浪微博

登录

注册

帮助

>> The future of AI, is the future of computer

[返回] 计算机科学论坛 → 计算机理论与工程 → 『人工智能 :: 机器学习|数据挖掘|进化计算』 → 问几个数据挖掘方面的问题

◇查看新帖 ◇ 用户列表 ◇

发表一个新主题

发表一个新投票

回复主题

(订阅本版)

您是本帖的第 7651 个阅读者　　

　

*	贴子主题：问几个数据挖掘方面的问题	举报打印推荐 IE收藏夹
	本主题类别:

enova

美女呀，离线，快来找我吧！

  等级：大二(研究C++)
  文章：31
  积分：201
  门派：XML.ORG.CN
  注册：2005/3/13

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	楼主

问几个数据挖掘方面的问题

请先阅读下面一段描述：
     由于这些数据集没有遗失数据，为了验证我们提出的方法，我们通过随机数发生器，人为地在条件属性值上随机产生一定比例的遗失数据，得到一个不完备的信息系统(暂时不区分条件属性和决策属性)，在其上作完整化实验．然后，将完整化后的信息系统看成一个决策系统(此时区分为条件属性和决策属性)，并作为数据集．用5个不同的随机数作为种子，分别通过5次随机划分为两个数据集，每次划分均按80％和20％比例．用前者作为训练集，将得出的分类规则在原来完备的数据集上进行测试，分别作5次训练测试．
（张伟等。一种基于ROUGH集理论的不完备数据分析方法。2003年6月《模式识别与人工智能》）
问题1：
1）这段话的意思是不是说：设一完整的数据集为D，先令D有遗失值，得到数据集D'，从D'中随机划出80%的数据来做实验得到分类规则，然后再将这分类规则用在D上测试
2）实验得到的分类规则的精度怎样得到？将每条规则运用于数据，精度=能够适用的规则/规则总数？
3）“用5个不同的随机数作为种子”是什么意思？
4）hayes和hayes-roth是同一个数据集吗？如果不是，哪里可以找到hayes数据集？
5）...N）根据各位的回复而定......

   收藏   分享
顶(0)

2005/3/13 15:54:00

enova

美女呀，离线，快来找我吧！

  等级：大二(研究C++)
  文章：31
  积分：201
  门派：XML.ORG.CN
  注册：2005/3/13

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第2楼

谢谢大家了！！！（刚才忘记答谢了，补个回帖）

2005/3/13 15:55:00

eyounx

帅哥哟，离线，有人找我吗？

  威望：9
  等级：大四(GRE考了1400分!)(版主)
  文章：272
  积分：1260
  门派：GOOGLEBBS.NET
  注册：2005/3/12

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第3楼

see blew

以下是引用enova在2005-3-13 15:54:01的发言：
请先阅读下面一段描述：
由于这些数据集没有遗失数据，为了验证我们提出的方法，我们通过随机数发生器，人为地在条件属性值上随机产生一定比例的遗失数据，得到一个不完备的信息系统(暂时不区分条件属性和决策属性)，在其上作完整化实验．然后，将完整化后的信息系统看成一个决策系统(此时区分为条件属性和决策属性)，并作为数据集．用5个不同的随机数作为种子，分别通过5次随机划分为两个数据集，每次划分均按80％和20％比例．用前者作为训练集，将得出的分类规则在原来完备的数据集上进行测试，分别作5次训练测试．
（张伟等。一种基于ROUGH集理论的不完备数据分析方法。2003年6月《模式识别与人工智能》）
问题1：
1）这段话的意思是不是说：设一完整的数据集为D，先令D有遗失值，得到数据集D'，从D'中随机划出80%的数据来做实验得到分类规则，然后再将这分类规则用在D上测试
应该是在剩下的20%D'上测试，这个看起来是交叉验证的变形。
2）实验得到的分类规则的精度怎样得到？将每条规则运用于数据，精度=能够适用的规则/规则总数？
一般来说，得到的所有所有应该当作一个整体，每一条规则的前件是不一样的：
accuracy = 0;
对每一个测试数据{
如果应用这一组规则得到的结果与真实结果一样，则accuracy++;
}
accuracy /= 测试数据数量。
3）“用5个不同的随机数作为种子”是什么意思？
意思就是5次80%-20%的划分是不一样的
4）hayes和hayes-roth是同一个数据集吗？如果不是，哪里可以找到hayes数据集？
应该是，这个是UCI数据集中的一个，google "UCI dataset repository"
5）...N）根据各位的回复而定......

btw: 尽量多看国际杂志上的文章，JMLR,JAIR等杂志是免费的
----------------------------------------------
member of LAMDA, CS, NJU
http://lamda.nju.edu.cn/
http://lamda.nju.edu.cn/yuy

2005/3/13 17:45:00

enova

美女呀，离线，快来找我吧！

  等级：大二(研究C++)
  文章：31
  积分：201
  门派：XML.ORG.CN
  注册：2005/3/13

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第4楼

谢谢！
1）一般来说是在剩下的20%D'上测试，不过这里说的好像是D.对于不完整的数据集的挖掘，该怎样去测试自己的方法的分类精度呢。这里提到的是一种方法把
恩，我有空会多看的
多谢！！！

2005/3/13 20:33:00

enova

美女呀，离线，快来找我吧！

  等级：大二(研究C++)
  文章：31
  积分：201
  门派：XML.ORG.CN
  注册：2005/3/13

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第5楼

有没有什么工具可以计算分类规则的精度呢？
输入：分类规则，数据集
输出：分类精度

2005/3/13 20:49:00

eyounx

帅哥哟，离线，有人找我吗？

  威望：9
  等级：大四(GRE考了1400分!)(版主)
  文章：272
  积分：1260
  门派：GOOGLEBBS.NET
  注册：2005/3/12

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第6楼

数据集中的一个样本，是用向量表示的，例如有n个特征的样本，标示为[f1,f2,f3,...,fn,l]，其中l是样本标签。训练出的规则是根据f1,f2,...,fn对l的预测。"不完整"这里指的是f1...fn中有缺失，或者是训练集中的有标签缺失的样本，但是测试集的标签都是完整的。通过比较标签和规则输出来判断是否预测正确。
常用的精度测试方法有交叉验证，例如10倍交叉验证(10-fold cross validation)，将数据集分成十分，轮流将其中9份做训练1份做测试，10次的结果的均值作为对算法精度的估计，一般还需要进行多次10倍交叉验证求均值，例如10次10倍交叉验证，更精确一点。
----------------------------------------------
member of LAMDA, CS, NJU
http://lamda.nju.edu.cn/
http://lamda.nju.edu.cn/yuy

2005/3/13 23:39:00

IceMao

帅哥哟，离线，有人找我吗？

  等级：大一新生
  文章：5
  积分：85
  门派：XML.ORG.CN
  注册：2005/3/15

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第7楼

T. Mitchell. Machine Learning, P107 Chapter5(Chinese Edition)
有相关描述

2005/3/20 19:08:00

enova

美女呀，离线，快来找我吧！

  等级：大二(研究C++)
  文章：31
  积分：201
  门派：XML.ORG.CN
  注册：2005/3/13

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第8楼

测试集的数据也是有缺失的，那么含缺失值的对象怎么判断它是否和规则匹配呢？

2005/3/23 20:47:00

hjjjl

美女呀，离线，快来找我吧！

  等级：大一新生
  文章：5
  积分：86
  门派：W3CHINA.ORG
  注册：2005/6/6

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第9楼

up
----------------------------------------------
有一种画，叫做水墨画；有一种女孩，被称为水墨女孩.......

2005/7/4 16:18:00

netgod

帅哥哟，离线，有人找我吗？

  等级：大一新生
  文章：8
  积分：85
  门派：XML.ORG.CN
  注册：2005/5/4

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第10楼

ding

2005/7/9 11:02:00

GoogleAdSense

  等级：大一新生
  文章：1
  积分：50
  门派：无门无派
  院校：未填写
  注册：2007-01-01

	广告

2025/9/5 16:55:06

本主题贴数10，分页： [1]

管理选项：修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	6,367.188ms