|
以文本方式查看主题 - 计算机科学论坛 (http://bbs.xml.org.cn/index.asp) -- 『 人工智能 :: 机器学习|数据挖掘|进化计算 』 (http://bbs.xml.org.cn/list.asp?boardid=62) ---- 实施数据挖掘项目考虑的问题 (http://bbs.xml.org.cn/dispbbs.asp?boardid=62&rootid=&id=46968) |
|
-- 作者:DMman -- 发布时间:5/16/2007 11:26:00 AM -- 实施数据挖掘项目考虑的问题 实施数据挖掘项目考虑的问题 - 问题一 做数据挖掘研究的人,往往把主要的精力用于改进现有算法和研究新算法上。人们都知道数据准备是必不可少的一步,但很少有人去真正花时间和精力去研究。其实数据挖掘最后成功与失败,是否有经济效益,数据准备起到了至关重要的作用。数据准备包含很多方面:一是从多种数据源去综合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术;另一方面就是如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。 众所周知,SQL是广泛用于数据库查询的语言,有很多数据挖掘软件提供商利用SQL来为数据挖掘做数据准备,但就笔者多年来的分析经验和同其他专家探讨感觉到,SQL在很多时候有些力不从心,因为数据挖掘和分析的一些算法通常要求数据具有一定的格式和规范性。 还需要强调的一点是,人们通常把数据挖掘工具看得过份神秘,认为只要有了一个数据挖掘工具,就能自动挖掘出所需要的信息,就能更好地进行企业运作,这是认识上的一个误区。其实要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,同时还需要对企业业务的深入了解和数据分析经验。一个企业要想在未来的市场中具有竞争力,必须有一些数据挖掘方面的专家,专门从事数据分析和数据挖掘工作。再同其他部门协调,把挖掘出来的信息供管理者决策参考,最后把挖掘出的知识物化。在国内的企业中,还很少有决策人员认识到这一点。如果管理者没有这方面的意识,数据挖掘和数据分析就很难发挥应有的作用,很容易走向两个极端,一是认为数据挖掘没有用处,二是开始认为数据挖掘是万能的。如此得到的结果往往与初始期望相去太远。 3.变化的数据和知识问题; 4.模式的易懂性问题; 5.非标准格式的数据、多媒体数据、面向对象数据处理问题; 6.与其他系统的集成问题; 7.网络与分布式环境下的KDD问题。 8.个人隐私问题 当然数据挖掘也会带来一些社会问题,其中最敏感的要属个人隐私问题。当消费者感觉到他们的个人信息被非授权使用、滥用甚至出卖时,他们会感到他们的个人隐私受到了严重侵害。例如,在西方有的警察为了防止来自罪犯的报复,往往要注意保守自己家庭地址和电话号码不被泄露,但当他的新生婴儿在医院出生后,医院可能会将相应的信息出卖给专营新生儿用品或服务的公司,使他全然失去安全感。也许当你用信用卡为你妻子的妇科诊疗付费后,你会回家后收到来自保险公司的妇科保险征订单、来自厂商的妇科保健用品广告等,你会如何感受?正是由于这种状况,在有些发达国家,许多人认为政府和商业机构对他们个人的事知道得太多了,为此,他们宁可放弃使用信用卡消费。 |
|
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
66.406ms |