新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 关于 XML 的一般性技术讨论,提供 XML入门资料 和 XML教程
    [返回] 计算机科学论坛XML.ORG.CN讨论区 - XML技术『 XML基础 』 → 利用Perl解析XML文件 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 2395 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 利用Perl解析XML文件 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     longshentailang 帅哥哟,离线,有人找我吗?
      
      
      威望:1
      等级:计算机学士学位
      文章:325
      积分:2990
      门派:XML.ORG.CN
      注册:2006/6/20

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给longshentailang发送一个短消息 把longshentailang加入好友 查看longshentailang的个人资料 搜索longshentailang在『 XML基础 』的所有贴子 引用回复这个贴子 回复这个贴子 查看longshentailang的博客楼主
    发贴心情 利用Perl解析XML文件

    【转载】利用Perl解析XML文件
       
    利用Perl解析XML文件

      当在Perl中使用XML时,你会有将近五百个CPAN模块可以选择,每一个都支持整合Web服务的不同方面。此外,Perl的核心库包括多个支持XML的模块。这篇文章就关注于一个最早期且涉及最频繁的核心模块:XML::Parser.

      XML::解析器系列

      最初的Perl解析器XML::Parser::Expat由Larry Wall在几年前编写并由Clark Cooper保持延续。模块作为Expat XML parser的界面由James Clark用C语言编写且已经被一些脚本语言所采用。

      Expat是一个以事件为基础的解析器,意味着特定条件触发处理功能。例如,一个开始或结尾标记将触发适当的用户定义子程序。XML::Parser模块在Expat功能的基础上为普通应用所建构。

      注意Expat在解析之前不会使XML生效且在遇到错误出现时会失效。这些限制会使XML::Parser模块速度非常之快。

      XML::Parser简介

      任何人都可以在Perl中编写一个XML解析器。毕竟你只是处理具有已知格式的文本。但由于XML::Parser模块是用C编写的,他比任何你可以实现的纯Perl应用要更有效的多。而且既然他已经被编写出来,你就可以把时间花在其他更有用的事情上。

      XML::Parser的Expat的功能允许你定义所使用的解析器的样式。最普遍使用的样式是Tree和Stream,Tree处理XML的输入,创建含有文件中的元素和数据的成套数组,这样你就可以按照你的意愿控制这个结构。Stream将分析行为划分层级,在一个事件的开始做处理,要使用 Stream,你必须在你对模块做例示并将其与描述事件出现时如何处理的子程序相关联时定义处理器。

      其它样式还包括:Sub,允许你特定地对一种XML标记定义其功能。Debug,将文件显示未标准输出。Object,与Tree相似但是返回对象。你也可以通过在XML::Parser类中定义一个子类来设定一个客制样式。

      这个例子中,我将使用XML::Parser类来创建一个Stream解析。我将带出一个将XML文件解析为标准输出的简单脚本程序,你可以在表A中看到脚本程序(xmlparse.pl),在表B中看到XML文件(data.xml)。这里,由于这是一个命令行脚本,我选择不解析URL元素。要执行这个脚本程序,在命令提示下,键入:

      perl xmlparse.pl data.xml

      脚本先参照适当的模块:

      use XML::Parser;

      接着,从命令提示输入抓取文件:

      my $xmlfile = shift;die "Cannot find file \"$xmlfile\""

      unless -f $xmlfile;

      脚本设置一些初始变量:

      $count = 0;$tag = "";

      然后是创建解析器实例:

      my $parser = new XML::Parser;

      现在我们定义事件处理器。我设置了开始标记,结束标记,特性数据的处理器。而仅仅因为是例子,我还加入了一个缺省处理器,它将对全部进行解析而不被其他事件处理器的定义所明显覆盖。如果你计划丢弃额外数据,缺省处理器将自动执行而不需要定义。
    $parser->setHandlers( Start => \&startElement,

      End => \&endElement,

      Char => \&characterData,

      Default => \&default);
    脚本的主要部分通过指示解析器实例而变得紧凑来通过XML数据文件:

      $parser->parsefile($xmlfile);

      剩下的就是定义在每个事件情况下如何进行处理。

      当脚本程序遇到一个开始标记时将执行这个子程序,这在上面的setHandlers方式中进行了定义。我选择跳过去并显示每个元素中我感兴趣的文本。

      接下来我定义的变量自动地被XML::Parser模块所传递。对于开始标记处理器,这些变量代表解析器实例,标记名和标记可能会有的属性数组。如果标记没有属性,则一个空数组将被传递至子程序。
    sub startElement {

      my( $parseinst, $element, %attrs ) = @_;

      SWITCH: {

      if ($element eq "article") {

      $count++;

      $tag = "article";

      print "Article $count:\n";

      last SWITCH;

      }

      if ($element eq "title") {

      print "Title: ";

      $tag = "title";

      last SWITCH;

      }

      if ($element eq "summary") {

      print "Summary: ";

      $tag = "summary";

      last SWITCH;

      }

      }}
    在XML数据文件中遇到一个结束标记,endElement子程序就会被调用。这里,我要提供一些线中断。在这里被XML::Parser所传递的变量是解析器实例和标记名称。
    sub endElement {

      my( $parseinst, $element ) = @_;

      if ($element eq "article") {

      print "\n\n";

      } elsif ($element eq "title") {

      print "\n";

      }}
    由于我们处在命令行,我使用特性数据处理器来去掉可能已经包括在XML数据文件中的任一行和标签格式并选择显示内容(如果他来自一个标题或摘要标记)。
    sub characterData {

      my( $parseinst, $data ) = @_;

      if (($tag eq "title") || ($tag eq "summary")) {

      $data =~ s/\n|\t//g;

      print "$data";

      }}
    最后,我定义了一个子程序来处理所有可能遇到的其它类型的元素。其中包括特性编码定义,文件类型定义和评注。所有不被开始标记,结束标记和特性数据事件处理器所明确覆盖的都包括在这里面。
    sub default {

      my( $parseinst, $data ) = @_;

      # you could do something here}

      小结

      你对XML::Parser的Expat功能熟悉之后,你可以将其作为接触几百个可用的CPAN XML模块的跳板。我们这里的Stream样式是唯一一个可用的XML::Parser模块中的解析类型。你可能会发现其他的会更适合你的工作任务。 Perl几乎从第一个工程方案推出时就具有XML功能,不论你的需要如何,他都是一个很好的选择。

    URL:http://www.trainlinux.com/p/2002-12-26/6418.html


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/7/27 22:41:00
     
     zuhause 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:12
      积分:111
      门派:XML.ORG.CN
      注册:2006/7/27

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给zuhause发送一个短消息 把zuhause加入好友 查看zuhause的个人资料 搜索zuhause在『 XML基础 』的所有贴子 引用回复这个贴子 回复这个贴子 查看zuhause的博客2
    发贴心情 
    学习了,谢谢。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/7/28 3:33:00
     
     hahabyby 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:5
      积分:73
      门派:XML.ORG.CN
      注册:2006/7/26

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给hahabyby发送一个短消息 把hahabyby加入好友 查看hahabyby的个人资料 搜索hahabyby在『 XML基础 』的所有贴子 引用回复这个贴子 回复这个贴子 查看hahabyby的博客3
    发贴心情 
    学不会...
    好像用Perl写了个XML解析器..解析器是什么啊?

    ----------------------------------------------
    MSN:budong0000@hotmail.com,希望和大家共同学习进步.

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/7/28 11:12:00
     
     longshentailang 帅哥哟,离线,有人找我吗?
      
      
      威望:1
      等级:计算机学士学位
      文章:325
      积分:2990
      门派:XML.ORG.CN
      注册:2006/6/20

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给longshentailang发送一个短消息 把longshentailang加入好友 查看longshentailang的个人资料 搜索longshentailang在『 XML基础 』的所有贴子 引用回复这个贴子 回复这个贴子 查看longshentailang的博客4
    发贴心情 
    对于XML解析器,可以参看一下如下URL:http://www-128.ibm.com/developerworks/cn/xml/x-cert/part7/index.html。这里提供了有关XML解析器的一些基础内容。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/7/28 18:17:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 XML基础 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2025/12/24 17:27:25

    本主题贴数4,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    3,484.375ms