新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论Semantic Web(语义Web,语义网或语义万维网, Web 3.0)及相关理论,如:Ontology(本体,本体论), OWL(Web Ontology Langauge,Web本体语言), Description Logic(DL, 描述逻辑),RDFa,Ontology Engineering等。
    [返回] 计算机科学论坛W3CHINA.ORG讨论区 - Web新技术讨论『 Semantic Web(语义Web)/描述逻辑/本体 』 → [分享] Noesis:一款基于本体的大气科学语义搜索工具 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 3255 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: [分享] Noesis:一款基于本体的大气科学语义搜索工具 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     duxiong 帅哥哟,离线,有人找我吗?
      
      
      等级:大三(要不要学学XML呢?)
      文章:27
      积分:562
      门派:XML.ORG.CN
      注册:2004/9/13

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给duxiong发送一个短消息 把duxiong加入好友 查看duxiong的个人资料 搜索duxiong在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看duxiong的博客楼主
    发贴心情 [分享] Noesis:一款基于本体的大气科学语义搜索工具

    Ontology-Based Semantic Search Tool For Atmospheric Science
    基于本体的大气科学语义搜索工具
    (Rahul Ramachandran, Sunil Movva, Sara Graves and Steve Tanner)
    (University of Alabama in Huntsville)
    (Sunnybill推荐介绍,文章版权归作者所有,引用请注明出处)
    (Origin: http://ams.confex.com/ams/pdfpapers/102272.pdf)

    有兴趣的朋友参见http://hi.baidu.com/sunnybill/blog/item/2b2b6d1e1ed27cf71ad576d2.html

    1.简介
             Web是一个巨大的资源库,有各种网页、数据文件、元数据目录、出版物等等。按照收集元数据方式的不同,搜索工具大致分为两类:一种是Google、Alta Vista和Lycos等这类使用网络蜘蛛的工具。网络蜘蛛在网上爬行,收集网页的元数据,并对网页进行评估。这种评估是基于词频的。在标题、副标题、元数据标签中出现的词给于较高的权重。这种方法能够保证含有查询词汇的网页资源的查全率,对文档查询很有效,但对科学数据查询却不太合适。
             另一种方法是通过构建规范统元数据(形式化的元数据)的方式实现跨学科数据的查询。形式化的元数据带有标准规范,提供通用术语集,以及所提供数据值的定义和信息。这类规范包括都柏林中心原创标准(Dublin Core Initiative)、国际标准组织(ISO)标准、联邦地理数据委员会(FGDC, Federal Geographic Data Committee)等等。政府部门如美国地质调查局(USGS, U.S Geological Survey)、美国航空航天局(NASA, National Aeronautics and Space Administration)的存档地理数据规定使用FGDC规范。除了目录满足存储需要的规范之外,还需要关键词表(控制词汇表)来组成这些目录。这类词汇表有气候与森林元数据约定(CFMC,Climate and Forest(CF) Medadata Convention),以及全球变化总目录(GCMD, Global Change Master Directory)等。对这些目录的查询结果十分准确。
             衡量查询工具有两个指标:查全率和查准率。理想的查询工具是只查询人们真正想找的东西。上述两种方法都不能满足这样的要求。Web搜索工具简单易用,但返回的信息太多;基于目录的查询更准确,但太复查而且不全面。为了有效查询资源目录,用户必须熟悉规范词表,非专业人士(比如学生)很难构造正确的查询来获取理想的结果。
             这里介绍一款基于本体的语义气象科学查询工具——Noesis,可以有效解决这个问题。Noesis不单单是语义搜索引擎,而且能够通过比较资源的相关信息聚合资源,是一个资源聚合器。随后的章节将介绍Noesis的结构和功能。

    2.本体与语义网络
             亚里斯多德说,本体是关于存在的科学。从机器学习(Machine Learning)人工智能(AI, Artificial Intelligent)和智能系统(Intelligent System)角度,"本体是共享概念的形式化的明确的定义"(Gruber,1993)。所以,一个本体系统必须包含概念及其使用约束的明确定义。它必须是形式化的,以便机器理解;必须是共享的,以保证对知识理解的一致性。本体有两个独特的组件:它们包含某一领域重要概念的名称。例如,生物学本体,“大象”是其中的一个概念,其成员是一种“动物”;“食草动物”也是其中概念,其成员是所有草食性和食草性的动物。同样的,“成年象”也是其中的一个概念,它的成员是年龄大于20年的大象。除了概念的定义,本体还确定了知识背景和领域约束。因此,生物学本体应该含有“成年象”至少重2000公斤、所有的“大象”可以是“非洲象”或是“印度象”、没有成员既是“食草动物”又是“食肉动物”等等这样的关系和约束。所以,本体是领域概念及其相互关系的定义。
             本体在实现语义网络中扮演十分重要的角色(Berners-Lee等,2001)。语义网络意味着机器不仅呈现数据,而且能够理解数据。网页中的概念周围带有XML标记,机器通过检查被标签中命名空间引用的本体内容来识别其含义。这样就使得机器能够在没有人工干预定额情况下更好地进行搜索。这种况下进行的搜索可以极大地减少错误命中,提高搜索命中率。


    3. Noesis工具组件
             Noesis 工具的系统结构见图1。工具中有三个组件,分别描述如下:


    图1: Noesis系统结构

    3.1 LEAD本体
             Noesis工具应用的本体是作为“大气发现关联环境”(LEAD, Linked Environment for Atmospheric Discovery)项目的一部分(Droegemeter等,2004;Droegemeter等,2005a; 2005b)被开发的。LEAD本体是基于SWEET(基于语义网络的地球和环境术语,Semantic Web for Earth and Environment Terminology)本体(Raskin and Pan, 2005)开发的(参见http://hi.baidu.com/sunnybill/blog/item/c9ca19f7afebf121730eecc2.html)。SWEET本体是通过软件对Web资源的语义理解发现和使用地学数据的。SWEET包含一些列以OWL形式表示的本体(Bechhofer等,2004),既包含正交概念(空间、时间、地球领域、物理量等),又集成了一些科学知识感念(如现象、事件等)。SWEET是基于NASA的全球变化总目录(GCMD)构建的,GCMD包含大约1000个限定地学词汇,以分类形式表示。SWEET被设计成高级本体,允许创建地球科学的各个领域的具体本体补充SWEET概念。LEAD本体主要关注大气科学的相关概念。通过使用美洲气象协会(Amercian Meteorology Society)术语表中的概念,并定义它们之间的关系,将美洲气象协会术语表映射到SWEET本体。所以,LEAD本体将是大气科学领域的专门本体,是对SWEET本体中定义的概念的扩展。
             构建LEAD本体有两点原因:首先,它可以作为教学和研究的知识库,LEAD将不仅仅是静态的术语表,它还包含大气现象、参数、数据、服务以及高层概念的定义和它们之间的关系。LEAD本体的最终目标是创建一个连接这些高级概念的顶层本体。有了这个本体,搜索“中气旋(Mesocyclone)”这个概念就能够发现这个现象有一个“旋涡状态(Vorticity)”物理量定义,数据挖掘服务就能够应用这个字段来扩展“中气旋(Mesocyclone)”。
             第二个原因是LEAD本体支持语义搜索。本体的应用可以使Noesis这样的工具扩展对元数据目录和其他Web资源的搜索能力,而不仅仅是基于关键字的搜索。

    3.2 本体推理服务
              本体推理服务(OIS, Ontology Inference Severce)是推理引擎的一个SOAP协议Web服务接口。构建在Apache Axis的SOAP引擎之上。后台所用的推理引擎是Pellet(Grau等,2004)。Pellet是一个基于tableaux算法的OWL描述逻辑推理机。推理机与LEAD本体一起预装,能够对本体进行T-BOX和A-BOX查询。T-BOX查询处理概念的细泛化关系和同义关系;A-BOX查询查找符合条件的概念的实例,并能基于属性过滤。所有发到OIS的请求都被翻译成一个或多个查询给推理机。本体推理服务(OIS)描述逻辑推理接口(DIG, Discription Logic Resoner Interface)与推理机交互。DIG接口是以HTTP接口方式访问描述逻辑推理机的标准。查询的结果通过该接口返回给OIS。OIS允许使用标准Web服务协议与其他系统(如LEAD数据库子系统查询服务)松散地连接集成。在Noesis中,OIS主要与智能搜索代理通讯。

    3.3 智能搜索代理(Smart Search Broker)   
             智能搜索代理主要负责管理和协调来自客户端、OIS和其他分布式资源的用户请求。如果用户选择查询的词汇,智能代理就用这个词汇列表在不同的分布式资源上进行查询。这些资源可以使Google,元数据目录,包括LEAD资源目录、SURA滨海观测项目(SCOOP)目录以及地球系统教育数字图书馆(DLESE, Digital Library for Earth System Education)目录这类教育资源等,也可以是其它资源。


    4. Noesis应用实例
             这里列出两个Noesis工具的用户使用实例。

    4.1 细化搜索实例
              Noesis可以浏览本体中的概念体系。浏览时,用户可以本体中任意移动。如果用户不知道某个物理参数的准确名称,他可以提供高层的概念来查找。用户就可以从一般化概念开始,找到理想的专门主题的信息。例如,用于输入查询词“压力(Pressure)”,Noesis工具就可以通过本体找到“静水压Hydrostatic Pressure”、“总压力Total Pressure”等术语词汇,并把这些结果返回给用户选择。Noesis工具就可以根据用户选择的词汇列表,在分布式资源上(包括Google, DLESE等)查找,并把查询结果进行聚合,返回给用户。该实例参见图2a。


    图2a: Noesis工具使用实例

    4.2 同义搜索实例
                  Noesis工具好可以搜索同义术语。例如,在元数据目录资源中查询“Precipitation(降水)”,就找不到目录中的“Rainfall(降水)”字段中的值。Noesis工具可以利用本体可以解决这个问题。在返回细泛化概念的同时,系统也给用户返回同义概念供用户选择。系统可以根据用户的选择在分布式资源上查询,并将结果进行聚合,返回该用户。


    5. 小结及进一步的工作
               本文所述Noesis工具代表了下一代利用领域本体技术的专业搜索和资源聚合工具。领域本体可以帮助用户和机器提高查询结果的查全率和查准率。Noesis工具在地学搜索和教学中也可以发挥重要作用。它不仅利用本体提示用户修正查询词汇,还可以查询对用户有用的不同资源。这些资源完全可以包括网页、相关教育资源、数据库、相关出版物等等。最初Noesis工具使用的LEAD本体是有限的,随着LEAD本体的不断进化,新的LEAD将会用于Noesis工具。目前的Noesis工具只能搜索Web网页(通过Google)以及DLESE目录中的教育资源。将LEAD于其他目录资源连接允许用户查找相关数据库的工作正在进行。
               尽管目前版本的Noesis主要关注大气科学,工具本身可以应用于不同的领域,只需要配置不同的领域本体,搜索不同的分布式资源。


    6. 致谢
               LEAD项目得到了国家科学基金(National Science Foundation)资助,协议号为:ATM-0331594, ATM-0331591, ATM-0331574, ATM-0331480, ATM-0331579, ATM03-31586, ATM-0331587, and ATM-0331578。


    7. 参考文献


    [1]       Bechhofer, S., F. v. Harmelen, J. Hendler, I. Horrocks, D.L. McGuinness, P. F. Patel-Schneider, and L. A.Stein, 2004: OWL Web Ontology Language Reference.

    [2]       Berners-Lee, T., J. Hendler, and O. Lassila, 2001: The Semantic Web. Scientific American, 284, 34-43.

    [3]       Droegemeier, K., V. Chandrasekar, R. Clark, D. Gannon, S. Graves, E. Joseph, M. Ramamurthy, R.Wilhelmson, K. Brewster, B. Domenico, T. Leyton, V. Morris, D. Murray, B. Plale,R. Ramachandran, D.Reed, J. Rushing, D. Weber, A. Wilson, M. Xue, and S. Yalda, 2004: Linked Environment for Atmospheric Discovery (LEAD): A Cyberinfrastructure for Mesocyclone Meteorology Research and Education. Interactive Information and Processing Systems (IIPS), Seattle, WA, American Meteorological Society.

    [4]       Droegemeier, K., V. Chandrasekar, R. D. Clark, D. Gannon, S. Graves, E. Joseph, M. K. Ramamurthy, B. Wilhelmson, K. Brewster, B. Domenico, T. Leyton, D. V. R. Morris, D. R. Murray, B. Plale, R. Ramachandran, D. Reed, J. Rushing, D. Weber, A. Wilson, M. Xue, and S. Yalda, 2005a: Linked Environments for Atmospheric Discovery (LEAD): Architecture, Technology Road Map and Deployment Strategy. Joint Session on Cyberinfrastructure to support atmospheric and Oceanic Education: Examples and strategies, AMS Annual Meeting, San Diego CA.

    [5]       Droegemeier, K. K., D. Gannon, D. Reed, B. Plale, J. Alameda, T. Baltzer, K. Brewster, R. Clark, B. Domenico, S. Graves, E. Joseph, V. Morris, D. Murray, R. Ramachandran, M. Ramamurthy, L. Ramakrishnan, J. Rushing, D. Weber, R. Wilhelmson, A. Wilson, M. Xue, and S. Yalda, 2005b: Service-Oriented Environments in Research and Education for Dynamically Interacting with Mesoscale Weather. IEEE Computing in Science & Engineering, 7, 24-32.

    [6]       Grau, B. C., B. Parsia, and E. Sirin, 2004: Tableau Algorithms for E-Connections of Description Logics.

    [7]       Gruber, T. R., 1993: A Translation Approach to Portable Ontology Specifications. Knowledge Acquisition,, 5, 199-220.

    [8]      Raskin, R. G. and M. J. Pan, 2005: Knowledge representation in the semantic web for Earth and environmental terminology (SWEET). Computers & Geosciences, 31, 1119-1125.

    图2b: Noesis使用实例


    图2c: Noesis使用实例


    图2d: Noesis使用实例


    图2e: Noesis使用实例

    后记:本文译稿未经效审,发现错误请反馈到留言中,谢谢!


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/7/17 14:12:00
     
     zibo 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:18
      积分:155
      门派:XML.ORG.CN
      注册:2007/10/13

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给zibo发送一个短消息 把zibo加入好友 查看zibo的个人资料 搜索zibo在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看zibo的博客2
    发贴心情 
    好东西,感谢分享。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/7/17 19:51:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2025/8/7 3:55:20

    本主题贴数2,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    78.125ms