新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> The future of AI, is the future of computer
    [返回] 计算机科学论坛计算机理论与工程『 人工智能 :: 机器学习|数据挖掘|进化计算 』 → 这个Apriori算法有问题吗?[求助] 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 9236 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 这个Apriori算法有问题吗?[求助] 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     DavidPotter 帅哥哟,离线,有人找我吗?
      
      
      等级:大三暑假(ITELS考了6.5分!)
      文章:150
      积分:852
      门派:Lilybbs.net
      注册:2006/3/7

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给DavidPotter发送一个短消息 把DavidPotter加入好友 查看DavidPotter的个人资料 搜索DavidPotter在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 点击这里发送电邮给DavidPotter 引用回复这个贴子 回复这个贴子 查看DavidPotter的博客楼主
    发贴心情 这个Apriori算法有问题吗?[求助]

    下面所说的一个所谓的先验算法,大致思想是想删除那些不可能生成更高级别的频繁项集, 用一个类是倒排文件的方式来进行大量的交运算来替代乘法。但我总感觉有不少问题。那位大侠能解释一下这种方法是否真有问题或有什么改进的地方。谢谢!

    Apriori算法在许多情况下会产生大量的侯选项集尤其是侯选2_项集,从而严重影响挖掘的效率。现提出一种不产生候选2项目集的方法产生经常2项目集。

    具体算法如下:

    设有初始项目集L,包含Zk(k=1~t)Zk=(z1,z2,z3,……), 交易数TID(1~t),,设min_sup=a%,(即交易不少于b次,b=a%×t) 。设置Flag为TID中的元素数。(见表1)

    ○1重建数据库:

    搜索包含z1的交易数,生成u1;

    搜索包含z2的交易数,生成u2;

    ……

    ○2生成新数据库,包含U(u1~un)

    在U中去掉交易项数少于b的项,简化数据库;

    ○3计算u1∩u2,如交集中项数少于b则舍去,大于b储存为新的交易集。

    同理计算u1∩u3,u1∩u4,……u1∩un,u2∩3……. un-1∩un

    ○4计算与存储的交易集对应的项目集Ti∪Tj,存储为新的项目集。

    ○5储存集稍加整理即得出频繁2项目集。(见表2)

    3 快速求解频繁k项目集算法

    设得到的频繁2项目集为L2,其中项目集TCD(T1~Tn), 交易数TId(u1~un)。

    ○1计算u1∩u2,如交集中项数少于b则舍去,大于b储存,并储存与之相应的项目集,同理计算u1∩u3,u1∩u4,……u1∩un,u2∩3……. un-1∩un。

    ○2计算与存储的交易集对应的项目集Ti∪Tj,存储为新的交易集。

    ○3最后得到交易集TId(ui∩uj) , TCD(Ti∪Tj),(k≤n)

    ○4整理结果,去掉重复的交易集和项目集。得到频繁3项目集和频繁4项目集。

    ○5检查结果,如有需要,重复上述步骤,得到其他的频繁k项目集

    4 算法示例说明:

    举例说明:取minsup=50%(=2)


    TID   项目
    1       1 3 4
    2       2 3 5  
    3       1 2 3 5
    4       2 5

    项目集Z5={1,2,3,4,5}

    经过变换

    项目    TID             Flag
    1        1 3( u1)    2  
    2        2 3 4( u2) 3
    3        1 2 3 (u3) 3
    4        4( u4)      1去掉
    5        2 3 4 (u5) 3

    对Flag<2的项目去掉

    u1∩ u2=3 Flag=1舍去,u1∩ u3=1 ,3 Flag=2,u1∩ u5=3,Flag=1舍去。

    u2∩u3=2, 3,Flag=2,u2∩ u5=2, 3 ,4,Flag=3。

    u3∩ u5=2,3,Flag=2。

    从而很快的就得出频繁2项目集

    项目集       TID           Flag
    1 3(T1)   1 3 (u1)        2
    2 3(T2)   2 3 (u2)        2
    2 5(T3)   2 3 4 (u3)     3
    3 5(T4)   2 3 (u4)        2

    用以下的方法能很快的得出最终的频繁k项目集, 如没有特殊要求,可以用此方法,

    u1∩ u2=3 Flag=1舍去,u1∩ u3=3 Flag=1舍去,u1∩ u4=3,Flag=1舍去。

    u2∩u3=2, 3,Flag=2,保存,u2∩ u4=2, 3,Flag=2。保存.

    u3∩ u4=2,3,Flag=2,保存。

    因为T2∪ T3={2,3,5}=T2∪ T4={2,3,5}=T3∪ T4={2,3,5},k=3

    (u2∩u3)∪ (u2∩ u4) ∪(u3∩ u4)={2,3},

    因此得到频繁3项目集

    项目集      TID     Flag
    2,3,5    1 ,3   2


       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    Don‘t try so hard, the best things come when you least expect them to.

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/4/6 13:11:00
     
     heidi 美女呀,离线,快来找我吧!
      
      
      等级:大一新生
      文章:0
      积分:54
      门派:XML.ORG.CN
      注册:2006/5/18

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给heidi发送一个短消息 把heidi加入好友 查看heidi的个人资料 搜索heidi在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看heidi的博客2
    发贴心情 
    谁帮忙给一个apriori算法的实现代码啊  不胜感激 我的QQ号 240466855
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/18 18:00:00
     
     xawl 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:3
      积分:64
      门派:XML.ORG.CN
      注册:2010/9/8

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给xawl发送一个短消息 把xawl加入好友 查看xawl的个人资料 搜索xawl在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看xawl的博客3
    发贴心情 
    支持一下
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2010/9/8 15:49:00
     
     92960 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:27
      积分:139
      门派:XML.ORG.CN
      注册:2010/7/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给92960发送一个短消息 把92960加入好友 查看92960的个人资料 搜索92960在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看92960的博客4
    发贴心情 
    经济、网络等方面的EI检索论文转让
    http://www.17winner.com/News/Show.asp?id=174

    1.遗传SVR在人民币汇率预测中的应用
    2.基于粒子群与支持向量机的水质预测
    4.基于最小二乘支持向量机分类器的网络安全评估
    5.基于遗传支持向量机的宏观经济预测
    6.基于支持向量机的网络可靠性预测

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2010/10/26 17:44:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2025/8/2 23:39:29

    本主题贴数4,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    156.250ms