新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 搜索引擎, 信息分类与检索, 语义搜索, Lucene, Nutch, GRUB, Larbin, Weka
    [返回] 计算机科学论坛计算机技术与应用『 Web挖掘技术 』 → “数据挖掘”应用三人行[转帖] 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 6825 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: “数据挖掘”应用三人行[转帖] 举报  打印  推荐  IE收藏夹 
       本主题类别: 数据挖掘    
     DMman 帅哥哟,离线,有人找我吗?魔羯座1984-1-11
      
      
      威望:1
      头衔:数据挖掘青年
      等级:研二(Pi-Calculus看得一头雾水)(版主)
      文章:803
      积分:5806
      门派:W3CHINA.ORG
      注册:2007/4/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给DMman发送一个短消息 把DMman加入好友 查看DMman的个人资料 搜索DMman在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给DMman 访问DMman的主页 引用回复这个贴子 回复这个贴子 查看DMman的博客楼主
    发贴心情 “数据挖掘”应用三人行[转帖]

    “数据挖掘”应用三人行


      编者按:提到数据挖掘,对很多人,乃至于CIO们来说,都不见?有多么深入认识,更谈不上实际的应用需求分析了。下面,我们通过一位用户希望实施数据挖掘的需求出发,邀请专家、厂商对他们的需求进行分析,以供同行们借鉴、学习。

      我是山东泰安市国税总局信息中心主任胡志京,目前泰安市国税局想开展数据挖掘应用,为领导辅助决策提供支持,希望贵刊能推荐若干合适的方案。

      专家观点

      数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。它可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。例如,利用数据挖掘可以对企业的海量数据进行客户分析,包括客户类型、各类客户的需求倾向、贷款偿还预测和客户信用政策分析、客户流失分析等;进行市场研究,包括商品市场占有率预测、市场拓展计划仿真;进行经营策略研究,包括经营成本与收入分析、风险控制、欺诈行为甄别等。

      实现数据挖掘的四个关键

      首先,要踏踏实实做好基础数据库的建设。一个企业实现数据挖掘的前提和基础是拥有大量、真实的数据积累。没有数据积累,数据挖掘将无用武之地。

      一般用于挖掘的数据有两种来源:数据仓库或数据库。目前,基于数据仓库的数据挖掘逐渐被人们所推崇,它有三点显著优势:一,数据挖掘必须要对数据进行抽取、清洗、转换和装载,这个过程很耗时。如果基于数据仓库,数据仓库已经做好以上工作,就能避免挖掘时每次对数据进行抽取、清洗等。二,数据仓库的数据是按主题组织的,这为数据挖掘选择合适的数据源提供了方便。三,数据库不能存放历史数据,因此直接在数据库中挖掘,许多知识无法挖掘出来,如预测型应用;相反,数据仓库却能。

      其次,企业要有比较明确的挖掘目标。盲目的数据挖掘是很难成功的。

      再次,数据挖掘必须由来自不同领域的人员共同参与,包括行业专家、数据管理员、数据分析人员、业务分析人员、数据挖掘专家等。大家需要通力合作,寻找一套适合自己企业的开发方法,并逐步建立起挖掘的模型库。

      最后,构建数据挖掘系统,不仅需要很高的资金投入,而且挖掘结果是供决策层决策使用的,因此必须得到最高决策管理层的支持、认可和参与。

      市场现状及发展前景

      在国外,数据挖掘已经有不少成功案例。尽管数据挖掘的好处已经引起国内许多企业的重视,但实施的并不多,更多的企业是在观望和考虑。

      目前国内企业实现数据挖掘的困难在于缺少数据积累、难于构建业务模型、各类人员之间的沟通存在障碍、缺少有经验的实施者、初期资金投入较大。而在国外,数据挖掘首先在金融、证券、电信、零售业等数据密集型行业实施,因为这些行业信息化程度比较高,数据库中已经保留了大量数据资源。

      目前提供数据挖掘产品的厂商非常多,如著名的产品有SAS Enterprise Miner、NCR Teradata Warehouse Miner、SPSS Clementine 7。0、IBM DB2 Intelligent Mine、SQL Server 2000数据挖掘组件、Oracle9i Data Mining、CA CleverPath Predictive Analysis Server、德门软件DMiner等。这些产品各有特色:NCR、IBM、ORACLE等数据挖掘工具可以直接在数据库上进行挖掘;SAS提供了数据获取、取样、筛选、转换工具来构造要挖掘的数据集;SPSS针对具体应用领域推出了多个应用模版,以简化应用开发过程。

      有数据表明,进入二十世纪90年代,人类积累的数据量以每月高于15%的速度增加,如果不借助强有力的挖掘工具,仅依靠人的能力来理解这些数据是不可能的。

      数据挖掘的前景被人们普遍看好。国际知名调查机构Gartner Group在高级技术调查报告中,将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。Gartner的调查报告预计:到2010年,数据挖掘在相关市场的应用将从目前少于5%增加到超过80%。美国银行家协会预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14。9%。(■ 人民大学数据与知识工程研究所教授 陈红)

      用户需求

      目前泰安市国税总局已经建设了市一级的大集中系统,市、县、乡镇基层分所的业务统一到了市,实现了集中管理。信息中心有两台小型机,一台跑税收征管业务;另一台跑增殖税发票业务。希望所建设的数据挖掘系统能解决不同数据库之间的融合问题,能切合税务部门的实际应用需求。

      厂家回应

      分阶段部署商业智能

      提高决策的科学性、合理性是目前国内许多企业的一个共识。在此背景下,通过信息技术,有目的地采集业务数据,并将其转换为对决策有用的信息,用于智能化的分析、预测和模拟等,这样的应用被称为商业智能。

      商业智能的实现方式多种多样,但其体系结构通常包括三个基础部分:数据仓库、多维分析、前台分析工具。数据仓库用于抽取、整合、分布、存储有用的信息;多维分析用于全方位分析现状,并将不同角度的信息以数字、直方图、饼图、曲线等等方式展现给用户;前台分析工具提供简单易用的图形化界面给管理人员。在此基础结构之上,可以利用数据挖掘技术,发现问题、找出规律,达到真正的智能效果,即预测将来。

      先进的商业智能解决方案可能无法一步到位。IBM认为,一个比较好的办法是先分步骤完成泰安市国税总局数据仓库的建设,再逐步开展数据挖掘应用。数据仓库的建设也应该分阶段部署,即从当前最需要并且相对容易实施的内容入手。然后,再根据业务需求进行相应扩展。这种方法不仅可以很快获得投资回报,还可以保证未来的发展。

      基于泰安市国税总局的实际需求,IBM提出以下配置方案:先使用IBM的Warehouse Manager工具建设一个企业级的数据仓库,实现业务数据的自动采集、清洗、汇总。在这个过程中可以考虑采用信息整合技术(DB2 Information Integrator),实现数据仓库和业务系统数据库的无缝整合。然后,选择一些有意义的主题,抽取相关的数据到DB2 OLAP Server(多维分析服务器)中,利用多维分析工具,有效地将数据转化为灵活的报表和决策支持信息。再利用前端分析工具DB2 OLAP Analyzer,用户可以较容易地制作各种形式、风格的报表,直观地查看到税收征管等情况。最终可以采用DB2 Intelligent Miner for Data,对信息进行提炼和挖掘。

      在国外,IBM帮助新西兰国税实施了CRM;1998年帮助加州税务启动了基于IBM DB2数据库软件的综合逃税人监察项目数据仓库解决方案(INC)项目,使加州税务能够在超过2。2亿项的独立税务信息中利用商业智能技术进行业务分析。在国内,IBM为天津地税、武汉地税、西安地税、北京地税等提供了不同的解决方案。(■ IBM DB2技术经理 王小虎)

      数据仓库是基础

      从技术上讲,泰安国税总局开展数据挖掘的条件已经成熟。因为该局已经建设了大集中系统,业务集中提供了统一的业务规范和可靠的数据质量,这为数据挖掘的实现准备了良好的数据环境。但在实施时应充分考虑数据仓库与数据挖掘的关系:数据仓库是基础,数据挖掘是数据仓库之上的高层应用。二者需整体规划、分步实施。

      针对泰安国税总局的实际情况,NCRTeradata 提出的整个数据仓库系统逻辑上分五个层面,即:源数据层、数据导入层、数据存储与管理层、中间服务层和前端应用层。1。源数据层包括该局的业务数据、外部数据和其他数据等。2。数据导入层主要完成源数据向数据仓库系统的抽取、传输、转换和加载,需要配备数据加载转换(ETL)服务器。3。数据存储与管理层是整个系统的核心,通过数据仓库统一存储和管理各种数据,这些数据通过逻辑数据模型(LDM)进行组织和重构;为了数据挖掘的需要,还可以在该层建立相应的数据挖掘数据集市。4。中间服务层主要包括OLAP服务器、数据挖掘服务器等,该层为用户对数据仓库的访问提供各种方式的服务,从而实现访问方式的多样化和信息存取的透明化。5。应用层主要包括决策分析用户和数据挖掘用户:决策分析用户主要访问OLAP服务器或直接对数据仓库进行存取,实现随机查询、统计报表和决策分析功能;数据挖掘用户则需要利用专用的数据挖掘工具进行前端访问和开发。

      NCRTeradata已经成功地实施了包括美国国家税务局(IRS)、澳洲国家税务局(ATO)等在内的数据仓库和数据挖掘项目。数据仓库的效益仅1996年就帮助美国国家税务局追回补交税款两亿笔、增收200亿美元的税金和罚款,并进行了120万笔帐目审计。CRIS系统已成为美国国家税务局当前和未来实现税务目标的重点。(■ NCRTeradata 数据仓库事业部专业技术经理 谢国忠)

      建好数据仓库的六部分

      利用数据挖掘技术进行数据挖掘和预测,正受到越来越多的用户的关注。但在具体建设中,Sybase认为,首先需要建设一个数据仓库。然后再组织行业专家对业务问题进行分析,确定数据挖掘目标,收集并选择数据,使用合适的建模技术,建立国税系统的分析模型、评估模型等,最终逐步实现数据挖掘。

      Sybase认为,一个数据仓库的建设包括数据仓库设计、数据集成、数据管理、数据发布和展现这四个层次。据此,泰安市国税总局数据仓库的建立可以简单归结为以下六个组成部分:1。使用Sybase数据仓库设计工具PowerDesinger WarehouseArchitect建立主题分析模型;2。建立好的物理模型结构生成到数据仓库引擎ASIQ中;3。数据整理区的ASE数据库系统是当前运行的各个业务系统逐渐充实发展后的系统。由于泰安市国税总局已经实现了集中管理,泰安市国税业务数据经Sybase复制服务器可以从运行税收征管业务系统和增殖税发票业务系统或其他业务系统中收集上来,经过PowerMart在数据整理区的继续整理,逻辑转换后被格式化地加载到数据仓库系统中,同时可以使用PowerMart把分析和挖掘需要的数据整合到数据仓库中;4。数据仓库元数据管理工具Warehouse Control Center从主体分析模型中获取元数据信息,并生成前端工具分析查询所需的模型定制信息,供制作分析报表以及即席查询使用。5。前端分析工具Business Objects使用Warehouse Control Center生成的元数据,直接到数据仓库中获取数据,制作报表、进行即席查询和分析。6。数据挖掘工具Clementine直接从数据仓库中获取数据,实现数据的挖掘和预测。

      Sybase已经成功协助南京、青岛等地税务机构实施数据仓库项目。(■ Sybase中国公司DW/BI资深产品专家 孙兢)


       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    数据挖掘青年 http://blogger.org.cn/blog/blog.asp?name=DMman
    纪录片之家 (很多纪录片下载)http://www.jlpzj.com/?fromuid=137653

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/7/20 23:44:00
     
     GoogleAdSense魔羯座1984-1-11
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给Google AdSense 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/12/27 21:20:11

    本主题贴数1,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    78.125ms